Рубрики

Полезные материалы

Robots.txt

  1. Для чего нужен текстовый файл роботов?
  2. Где должен существовать файл robots.txt?
  3. Когда вы должны использовать правила robots.txt?
  4. Когда не следует использовать robots.txt?
  5. 1. Блокировка JavaScript / CSS
  6. 2. Блокировка параметров URL
  7. 3. Блокировка URL с обратными ссылками
  8. 4. Получение проиндексированных страниц deindexed
  9. 5. Установка правил, которые игнорируют сканеры социальных сетей
  10. 6. Блокировка доступа с промежуточных сайтов или сайтов разработчиков
  11. 7. Когда тебе нечего блокировать
  12. Robots.txt Синтаксис и форматирование
  13. Комментарии
  14. Указание User-agent
  15. URL соответствия шаблонов
  16. Robots.txt Карта сайта Ссылка
  17. Robots.txt Блоки
  18. Несколько блоков User-Agent
  19. Расстояние между блоками директив
  20. Отдельные блоки объединены
  21. Robots.txt Разрешить
  22. Robots.txt Приоритизация
  23. Robots.txt Директивы
  24. Robots.txt NoIndex
  25. Распространенные проблемы Robots.txt
  26. Тестирование и аудит Robots.txt
  27. Мониторинг изменений в Robots.txt

В этом разделе нашего руководства по директивам роботов мы более подробно расскажем о robots.txt текстовый файл и как его можно использовать для инструктирования поисковых роботов. Этот файл особенно полезен для управление обходом бюджета и убедитесь, что поисковые системы эффективно проводят время на вашем сайте и сканируют только важные страницы.

Для чего нужен текстовый файл роботов?

файл robots.txt чтобы сообщить сканерам и роботам, какие URL-адреса они не должны посещать на вашем веб-сайте. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застрять в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес на каждый день.

Как Google объясняет в своих Техническое руководство robots.txt , формат файла должен быть простым текстом, закодированным в UTF-8. Записи файла (или строки) должны быть разделены CR, CR / LF или LF.

Вы должны помнить о размере файла robots.txt, так как поисковые системы имеют свои собственные ограничения максимального размера файла. Максимальный размер для Google составляет 500 КБ.

Где должен существовать файл robots.txt?

Файл robots.txt всегда должен существовать в корне домена, например:

Этот файл относится к протоколу и полному домену, поэтому robots.txt на https://www.example.com не влияет на сканирование http://www.example.com или https: //subdomain.example. ком ; они должны иметь свои собственные файлы robots.txt.

Когда вы должны использовать правила robots.txt?

В общем, сайты должны пытаться использовать robots.txt как можно меньше контролировать ползание. Улучшение архитектуры вашего сайта и обеспечение его чистоты и доступности для сканеров - гораздо лучшее решение. Однако рекомендуется использовать файл robots.txt для предотвращения доступа сканеров к некачественным разделам сайта, если эти проблемы не могут быть устранены в краткосрочной перспективе.

Google рекомендует использовать robots.txt только в тех случаях, когда возникают проблемы с сервером или проблемы с эффективностью сканирования, такие как, например, то, что робот Googlebot тратит много времени на сканирование неиндексируемых разделов сайта.

Некоторые примеры страниц, которые вы не хотите сканировать:

  • Страницы категорий с нестандартной сортировкой, поскольку это обычно создает дублирование со страницей основной категории
  • Пользовательский контент, который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Внутренние страницы поиска, поскольку может быть бесконечное количество этих страниц результатов, что обеспечивает плохой пользовательский интерфейс и тратит впустую бюджет сканирования

Когда не следует использовать robots.txt?

Файл robots.txt является полезным инструментом при правильном использовании, однако есть случаи, когда это не лучшее решение. Вот несколько примеров, когда не следует использовать robots.txt для контроля сканирования:

1. Блокировка JavaScript / CSS

Поисковые системы должны иметь возможность доступа ко всем ресурсам на вашем сайте, чтобы правильно отображать страницы, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые резко изменяют пользовательский интерфейс, но не разрешены для сканирования поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

Например, если вы обслуживаете рекламное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не может получить доступ, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.

2. Блокировка параметров URL

Вы можете использовать robots.txt, чтобы заблокировать URL-адреса, содержащие определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, так как там есть больше параметров, специфичных для параметров, чтобы сообщать предпочтительные методы сканирования в Google.

Вы также можете поместить информацию во фрагмент URL ( / page # sort = price ), так как поисковые системы не сканируют это. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel = nofollow, чтобы сканеры не пытались получить к нему доступ.

3. Блокировка URL с обратными ссылками

Запрещение URL-адресов в файле robots.txt препятствует переходу ссылок на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит права на передачу этих ссылок, и в результате вы можете не иметь хорошего рейтинга в целом.

4. Получение проиндексированных страниц deindexed

Использование Disallow не приводит к деиндексации страниц, и даже если URL заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы могут все еще проиндексироваться. Это связано с тем, что процессы сканирования и индексации в значительной степени разделены.

5. Установка правил, которые игнорируют сканеры социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети могли получить доступ к этим страницам, чтобы можно было создать фрагмент страницы. Например, Facebook попытается посетить каждую страницу, которая публикуется в сети, чтобы они могли предоставить соответствующий фрагмент. Помните об этом при настройке правил robots.txt.

6. Блокировка доступа с промежуточных сайтов или сайтов разработчиков

Использование robots.txt для блокировки всего промежуточного сайта не является лучшей практикой. Google рекомендует не индексировать страницы, но разрешать их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда тебе нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать сканеры с каких-либо страниц. В этой ситуации вполне допустимо не иметь файл robots.txt и возвращать статус 404 при запросе.

Robots.txt Синтаксис и форматирование

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которые следует соблюдать при написании файла robots.txt.

Комментарии

Комментарии - это строки, которые полностью игнорируются поисковыми системами и начинаются с # . Они существуют, чтобы позволить вам писать заметки о том, что делает каждая строка вашего robots.txt, почему она существует и когда она была добавлена. Как правило, рекомендуется задокументировать назначение каждой строки вашего файла robots.txt, чтобы его можно было удалить, когда он больше не нужен, и не изменять, пока он по-прежнему необходим.

Указание User-agent

Блок правил может быть применен к определенным агентам пользователя с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Yandex; но не Facebook и рекламные сети, это может быть достигнуто путем указания токена агента пользователя, к которому применяется набор правил.

Каждый сканер имеет свой собственный токен агента пользователя, который используется для выбора соответствующих блоков.

Сканеры будут следовать самым определенным правилам агента пользователя, установленным для них с именем, разделенным дефисами, и затем обратятся к более общим правилам, если точное совпадение не будет найдено. Например, Новости Googlebot будут искать совпадения « googlebot-news », затем « googlebot », затем « * ».

Вот некоторые из наиболее распространенных токенов пользовательских агентов, с которыми вы столкнетесь:

  • * - Правила распространяются на каждого бота, если нет более конкретного набора правил.
  • Googlebot - все сканеры Google
  • Googlebot-News - сканер для новостей Google
  • Googlebot-Image - сканер для изображений Google
  • Mediapartners-Google - сканер Google Adsense
  • Bingbot - Bing's crawler
  • Яндекс - сканер Яндекса
  • Baiduspider - гусеничный Baidu
  • Facebot - сканер Facebook
  • Twitterbot - сканер Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, посмотрите документацию, опубликованную Google , Bing , Яндекс , Baidu , facebook а также щебет ,

Соответствие токена пользовательского агента блоку robots.txt не чувствительно к регистру. Например, "googlebot" будет соответствовать токену пользовательского агента Google "Googlebot".

URL соответствия шаблонов

У вас может быть определенная строка URL, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL, которые нужно исключить из файла robots.txt.

Чтобы помочь вам уточнить пути URL, вы можете использовать символы * и $. Вот как они работают:

  • * - это подстановочный знак, обозначающий любое количество символов. Это может быть в начале или в середине пути URL, но не обязательно в конце. Вы можете использовать несколько символов подстановки в строке URL, например, « Disallow: * / products? * Sort = ». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ - этот символ обозначает конец строки URL, поэтому « Disallow: * / dress $ » будет соответствовать только URL-адресам, оканчивающимся на « / dress », а не « / dress? Parameter ».

Стоит отметить, что правила robots.txt чувствительны к регистру. Это означает, что если вы запрещаете URL-адреса с помощью параметра « поиск » (например, « Disallow: *? Search = »), роботы могут по-прежнему сканировать URL-адреса с разной капитализацией, например « ? Search» = все что угодно ».

Правила директивы соответствуют только URL-путям и не могут включать протокол или имя хоста. Косая черта в начале директивы совпадает с началом пути URL. Например, « Запретить: / начинается » будет соответствовать www.example.com/starts .

Если вы не добавите начало директивы, совпадающее с / или * , оно не будет ничего совпадать. Например, « Disallow: старты » никогда не будет соответствовать ничего.

Чтобы наглядно представить, как работают разные правила URL-адресов, мы собрали для вас несколько примеров:

Чтобы наглядно представить, как работают разные правила URL-адресов, мы собрали для вас несколько примеров:

Robots.txt Карта сайта Ссылка

Директива sitemap в файле robots.txt сообщает поисковым системам, где найти XML-карту сайта, что помогает им обнаружить все URL-адреса на веб-сайте. Чтобы узнать больше о картах сайта, взгляните на наш руководство по проверке карты сайта и расширенной конфигурации ,

При включении файлов Sitemap в файл robots.txt вы должны использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL-адресов (например, /sitemap.xml .) Также стоит отметить, что файлы Sitemap не Не нужно сидеть на одном корневом домене, они также могут быть размещены на внешнем домене.

Поисковые системы обнаружат и могут сканировать карты сайта, указанные в файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или в Инструментах для веб-мастеров Bing без отправки вручную.

Robots.txt Блоки

Правило «запретить» в файле robots.txt может быть использовано разными способами для разных пользовательских агентов. В этом разделе мы рассмотрим некоторые из различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt являются только инструкциями. Вредоносные сканеры будут игнорировать ваш файл robots.txt и сканировать любую часть вашего сайта, которая является общедоступной, поэтому запрещение не должно использоваться вместо надежных мер безопасности.

Несколько блоков User-Agent

Вы можете сопоставить блок правил нескольким пользовательским агентам, перечислив их перед набором правил, например, следующие правила запрета будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

Пользователь-агент: googlebot
Пользователь-агент: bing
Disallow: / a

Расстояние между блоками директив

Google будет игнорировать пробелы между директивами и блоками. В этом первом примере будет выбрано второе правило, даже если между двумя частями правила есть пробел:

[код]
Пользователь-агент: *
Disallow: / запрещено

Disallow: / test1 / robots_excluded_blank_line
[/код]

Во втором примере Googlebot-mobile наследует те же правила, что и Bingbot:

[код]
Пользователь-агент: googlebot-mobile

Пользователь-агент: bing
Disallow: / test1 / deepcrawl_excluded
[/код]

Отдельные блоки объединены

Несколько блоков с одним и тем же агентом пользователя объединяются. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Google будет запрещено сканировать « / b » и « / a ».

Пользователь-агент: googlebot
Disallow: / b

Пользователь-агент: bing
Disallow: / a

Пользователь-агент: googlebot
Disallow: / a

Robots.txt Разрешить

Правило «allow» файла robots.txt явно разрешает сканирование определенных URL-адресов. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи правила запрета. Например, если « / location » не разрешен, вы можете разрешить сканирование « / location / london », указав специальное правило « Allow: / location / london ».

Robots.txt Приоритизация

Когда к URL-адресу применяются несколько правил разрешения и запрета, применяется правило с самым длинным соответствием. Давайте посмотрим, что произойдет с URL « / home / search / shirts » по следующим правилам:

Disallow: / дома
Разрешить: * поиск / *
Disallow: * рубашки

В этом случае URL разрешено сканировать, поскольку правило «Разрешить» имеет 9 символов, а правило запрета - только 7. Если вам нужен определенный или запрещенный путь URL, вы можете использовать *, чтобы увеличить длину строки. Например:

Disallow: ******************* / рубашки

Когда URL-адрес совпадает как с разрешающим правилом, так и с правилом запрета, но правила имеют одинаковую длину, запрет будет выполняться. Например, URL « / search / shirts » будет запрещен в следующем сценарии:

Disallow: / поиск
Разрешить: * рубашки

Robots.txt Директивы

Директивы уровня страницы (о которых мы расскажем позже в этом руководстве) являются отличными инструментами, но проблема с ними заключается в том, что поисковые системы должны сканировать страницу, прежде чем смогут прочитать эти инструкции, что может потреблять бюджет сканирования.

Директивы Robots.txt могут помочь снизить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы сканируют страницы, прежде чем предпринимать над ними действия. Это решение намного быстрее и проще в управлении.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, так как вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

Robots.txt NoIndex

Robots.txt noindex является полезным инструментом для управления индексацией поисковой системы без использования бюджета сканирования. Запрещение страницы в robots.txt не означает, что она удаляется из индекса, поэтому директива noindex гораздо эффективнее использовать для этой цели.

Google официально не поддерживает robots.txt noindex, и вы не должны отвечать на него, потому что, хотя он работает сегодня, он не может сделать это завтра. Этот инструмент может быть полезен и должен использоваться в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексами, но не в качестве критически важной директивы. Посмотрите на тесты, проводимые ohgm а также Каменный Храм которые оба доказывают, что функция работает эффективно.

Вот пример того, как вы будете использовать robots.txt noindex:

[код]
Пользователь-агент: *
NoIndex: / каталог
NoIndex: / *? * Sort =
[/код]

Так же как и noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам по индексированию, когда они размещены в robots.txt. Важно отметить, что не все поисковые системы и сканеры поддерживают эти директивы, и те, которые действительно могут перестать поддерживать их в любое время - вы не должны полагаться на их последовательную работу.

Распространенные проблемы Robots.txt

Есть несколько ключевых проблем и соображений для файла robots.txt и его влияние на производительность сайта. Мы нашли время, чтобы перечислить некоторые из ключевых моментов, которые следует рассмотреть с robots.txt, а также некоторые из наиболее распространенных проблем, которые, мы надеемся, можно избежать.

  1. Иметь запасной блок правил для всех ботов. Использование блоков правил для отдельных строк пользовательского агента без наличия запасного блока правил для каждого другого бота означает, что на вашем веб-сайте в конечном итоге встретится бот, которому не нужно следовать никаким наборам правил.
  2. Важно, чтобы robots.txt постоянно обновлялся. Относительно распространенная проблема возникает, когда robots.txt устанавливается на начальной стадии разработки веб-сайта, но не обновляется по мере роста веб-сайта, а это означает, что потенциально полезные страницы неразрешенный.
  3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса - например, / product > / disallowed > / category
  4. Чувствительность к регистру может вызвать много проблем - веб-мастера могут ожидать, что раздел веб-сайта не будет сканироваться, но эти страницы могут сканироваться из-за альтернативных вариантов, то есть существует «Disallow: / admin», но поисковые системы сканируют « / ADMIN ».
  5. Не запрещать ссылки с обратными ссылками - это предотвращает передачу PageRank на ваш сайт от других, которые ссылаются на вас.
  6. Задержка сканирования может вызвать проблемы с поиском. Директива « crawl-delay » заставляет сканеры посещать ваш сайт медленнее, чем им бы хотелось, а это означает, что ваши важные страницы могут сканироваться реже, чем оптимально. Эта директива не подчиняется Google или Baidu, но поддерживается Bing и Yandex.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт не работает. Возвращение кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что они попытаются снова сканировать веб-сайт позже.
  8. Robots.txt disallow переопределяет инструмент удаления параметров. Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие указания по индексации, которые вы, возможно, давали поисковым системам.
  9. Разметка окна поиска дополнительных ссылок будет работать с заблокированными внутренними поисковыми страницами - для работы разметки окна поиска дополнительных ссылок не нужно сканировать внутренние страницы поиска на сайте.
  10. Запрещение перенесенного домена повлияет на успешность миграции. Если вы запретите перенесенный домен, поисковые системы не смогут выполнить ни одно из перенаправлений со старого сайта на новый, поэтому миграция вряд ли будет успешной. ,

Тестирование и аудит Robots.txt

Учитывая, насколько вредным может быть файл robots.txt, если содержащиеся в нем директивы не обрабатываются правильно, существует несколько различных способов проверить его, чтобы убедиться, что он был правильно настроен. Взгляните на это руководство по аудиту URL-адресов, заблокированных robots.txt , а также эти примеры:

  • Используйте DeepCrawl - The Запрещенные страницы а также Запрещенные URL (не сканированные) Отчеты могут показать вам, какие страницы заблокированы поисковыми системами вашим файлом robots.txt.
  • Используйте консоль поиска Google - с GSC robots.txt тестер инструмент Вы можете просмотреть последнюю кэшированную версию страницы, а также использовать инструмент «Выборка и рендеринг» для просмотра отрисовок из пользовательского агента Googlebot, а также из пользовательского агента браузера. На что следует обратить внимание: GSC работает только для пользовательских агентов Google, и могут быть протестированы только отдельные URL-адреса.
  • Попробуйте объединить идеи обоих инструментов путем выборочной проверки запрещенных URL-адресов, помеченных DeepCrawl в инструменте GSC robots.txt, чтобы прояснить конкретные правила, которые приводят к запрету.

Мониторинг изменений в Robots.txt

Когда на сайте работает много людей, и с проблемами, которые могут быть вызваны, если хотя бы один символ неуместен в файле robots.txt, постоянно мониторинг вашего robots.txt это важно. Вот несколько способов проверить наличие проблем:

  • Проверьте консоль поиска Google, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, так что это единственный способ точно увидеть, что видит Google.
  • Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает ограничение Google в 500 КБ.
  • Перейдите к отчету о состоянии индекса Google Search Console в расширенном режиме, чтобы перепроверить изменения robots.txt в количестве запрещенных и разрешенных URL-адресов на вашем сайте.
  • Запланируйте регулярные обходы с DeepCrawl, чтобы постоянно видеть количество запрещенных страниц на вашем сайте, чтобы вы могли отслеживать изменения.

Для чего нужен текстовый файл роботов?
Txt?
Txt?
Txt?
Для чего нужен текстовый файл роботов?
Txt?
Txt?
Txt?