Одним из наиболее запутанных аспектов SEO является изучение того, как написать файл robots.txt, чтобы поисковые системы эффективно сканировали ваш сайт и индексировали только контент, который вы хотите найти в результатах поиска. Это руководство предназначено для того, чтобы сделать файл robots.txt для вашего сайта более понятной задачей.
В этом руководстве также рассматриваются общие оптимизации robots.txt для веб-сайтов WordPress. WordPress CMS составляет почти 20% всех сайтов , что делает его самой распространенной CMS в мире. Тем не менее, большая часть этого совета может быть применена к другой CMS, если учитывать различные структуры URL.
Файл robots.txt - это просто файл «.txt», который загружается в корневую папку (обычно через FTP) и содержит список директив сканирования, которые вы предоставляете поисковым системам, когда они посещают ваш сайт для сканирования. Посмотреть мой Вот если вы не знакомы с тем, как это выглядит. Это чертовски скучно.
Доступ к файлу robots.txt на вашем веб-сайте - это первый шаг в процессе сканирования поискового бота, а оптимизация файла robots.txt служит вашей первой линией защиты, гарантируя, что боты поисковой системы разумно тратят свое время при сканировании вашего веб-сайта. Это особенно важно для больших веб-сайтов, где бюджет сканирования поискового бота может не обеспечить полный обход веб-сайта.
Правила в файле robots.txt могут быть адресованы либо всем искателям, либо определенным искателям, а протокол User-agent используется для указания искателя, к которому относятся ваши правила. Он должен быть указан выше ваших правил (для каждого агента пользователя).
При использовании протокола User-Agent: * правила будут применяться ко всем сканерам, однако здесь приведены другие распространенные пользовательские агенты, которые вам может понадобиться при написании правил для определенных сканеров в файле robots.txt. Вы можете найти более полный список Вот ,
Основным правилом оптимизации файла robots.txt является правило «запретить». Он дает указание поисковым системам НЕ сканировать определенный URL, определенную папку или коллекцию URL, определенные правилом строки запроса (часто это правило подстановочного знака, использующее звездочку). Это также приведет к тому, что URL-адреса не будут проиндексированы в поисковых системах (или будут «подавлены», если они уже проиндексированы).
Правило запрета следует использовать с URL-адресами относительного пути, и оно может контролировать только поведение поискового бота на вашем веб-сайте. Он отформатирован так:
Disallow: правило идет сюда
Часть «правило здесь» должна быть заменена тем правилом, которое вы хотите применить. Опять же, это может быть конкретный URL-адрес, конкретная подпапка или набор URL-адресов, определенных правилом строки запроса. Вот несколько примеров каждого:
Следующее правило будет указывать поисковым системам не сканировать URL-адрес по адресу http://www.domain.com/specific-url-here/.
Disallow: / specific-url-here /
Следующее правило будет указывать поисковым системам не сканировать любые URL-адреса в подпапке, расположенной по адресу http://www.domain.com/subfolder/.
Disallow: / подпапка /
Следующее правило будет указывать поисковым системам не сканировать любые URL-адреса, начинающиеся с http://www.domain.com/confirmation, независимо от того, какие символы появляются после этой начальной части URL-адреса. Это может быть полезно, если у вас есть несколько URL-адресов, которые построены с похожей структурой, но вы не хотите, чтобы поисковые системы сканировали или индексировали их (т. Е. Страницы подтверждения для форм получения по электронной почте).
Запретить: / подтверждение *
Примечание. Вы должны быть осторожны с этим правилом, поскольку можете непреднамеренно запретить сканирование важных страниц, которые вы действительно хотите, чтобы поисковые системы сканировали и индексировали.
Существует общий набор подпапок, которые являются родными для WordPress CMS, и вы хотите ограничить сканирование поисковых систем. Вот краткий список папок для использования правила «Запретить»:
Однако для сайтов WordPress важно разрешить поисковым системам сканировать вашу / wp-content / uploads / подпапку, чтобы ваши изображения могли быть проиндексированы. Таким образом, вам нужно правило, такое как следующее:
Разрешить: / wp-content / uploads /
Это правило стало намного популярнее, когда Google объявленный что он хочет иметь возможность сканировать CSS и javascript, чтобы отобразить страницу так, как ее видит пользователь. Простым подходом было бы добавить следующие правила в User-agent: раздел Googlebot вашего файла robots.txt.
Пользователь-агент: Googlebot Разрешить: * .js * Разрешить: * .css *
Однако я обнаружил, что Google не всегда соблюдает эти правила «Разрешить», если у вас есть файлы CSS и javascript, расположенные в разных подпапках.
Следующие подпапки WordPress обычно запрещены для сканирования, но в них могут быть файлы javascript и CSS, к которым Google не сможет получить доступ, если вы не предоставите им конкретные команды «allow»:
Чтобы разблокировать файлы javascript и CSS в этих подпапках, в дополнение к файлам javascript и CSS, не включенным в эти подпапки, необходимы следующие правила:
Пользователь-агент: Googlebot Разрешить: /*.js* Разрешить: /*.css* Разрешить: /wp-content/*.js* Разрешить: /wp-content/*.css* Разрешить: / wp-includes / *. js * Разрешить: /wp-includes/*.css* Разрешить: /wp-content/plugins/*.css* Разрешить: /wp-content/plugins/*.js* Разрешить: / wp-content / themes / *. css * Разрешить: /wp-content/themes/*.js*
Google заявил, что они могут соблюдать правило «Nondex» в вашем файле robots.txt, согласно этому Hangouts для веб-мастеров Google с Джон Мюллер известный аналитик Google Webmaster Trends Analyst.
Тем не менее, Джон Мюллер заявил через месяц в Twitter, что не советует использовать правило «NOINDEX» в файле robots.txt.
Таким образом, использование этого правила зависит от вас. Он не заменяет лучшую практику управления индексацией с помощью мета-роботов и тегов X-robots, однако он может быть полезен (только с Google) в крайнем случае, если технические ограничения оставят его в качестве последнего средства.
Правило простое в применении. Вот несколько примеров:
NOINDEX: /xmlrpc.php* NOINDEX: / wp-includes / NOINDEX: / cgi-bin * NOINDEX: * / feed * NOINDEX: / tag * NOINDEX: / public_html *
Ребята из Stone Temple Consulting провели тестовое задание и определил, что «в конечном итоге директива NoIndex в Robots.txt довольно эффективна». У меня был хороший успех с использованием правила NoIndex в моем файле robots.txt, чтобы также извлечь страгглер / тег / страницы из индекса Google. Поэтому не стесняйтесь использовать это правило для дальнейшей оптимизации файла robots.txt. Однако учтите, что это работает только для Google, который может не уважать его в любой момент времени.
Поисковые системы также будут искать карту сайта XML в вашем файле robots.txt. Если у вас есть несколько карт сайта XML, таких как карта сайта XML видео, в дополнение к вашей основной карте сайта XML, то вы захотите связать и то и другое здесь. Файлы Sitemap в формате XML должны быть связаны в файле robots.txt следующим образом (обычно в нижней части карты сайта):
Карта сайта: http://www.domain.com/sitemap_index.xml Карта сайта: http://www.domain.com/video-sitemap.xml
Google предоставляет два инструмента в Google Search Console которые отлично подходят для тестирования ваших правил файла robots.txt, чтобы убедиться, что они соблюдаются и что вы правильно разблокируете javascript, CSS и другие важные файлы, которые Google должен сканировать, чтобы визуализировать страницу так, как ее видит пользователь.
Просмотреть как Google инструмент в Google является отличной отправной точкой для обнаружения любых заблокированных ресурсов, которые Google не может сканировать и отображать из-за правил файла robots.txt. Обычно сообщаемыми проблемами являются файлы JavaScript, CSS-файлы и заблокированные изображения.
При использовании этого инструмента обратите внимание на любые заблокированные ресурсы для тестирования изменений в ваших правилах файла robots.txt. Вы хотите, чтобы у вас не было заблокированных ресурсов или только внешние заблокированные ресурсы (которыми вы не можете управлять). На следующем снимке экрана показано, что только два внешних ресурса в моем файле robots.txt не были просмотрены Google. Это хорошо.
После определения заблокированных ресурсов используйте Robots.txt Tester инструмент для проверки реализации новых правил и определения, разрешено ли роботу Google сканировать их или нет. Как только ваши правила будут завершены, добавьте их в ваш файл robots.txt. Вот как выглядит инструмент:
Спасибо Максу Прину, Адаму Одетту и команде Merkle за создание этого супер потрясающий инструмент тестирования что позволяет проверять заблокированные ресурсы, не имея доступа к учетной записи веб-сайта Google Search Console. Они даже работают над специальным запросом (от вашего истинного), чтобы предоставить ваши собственные измененные правила файла robots.txt. Это позволит нам увидеть, как робот Google и другие боты реагируют (в отношении заблокированных ресурсов) на пользовательские изменения правил до их запуска (или для работы на сайте разработки). Определенно проверьте это.
Как человек, который ежедневно просматривает результаты поиска Google, следит за техническими новостями SEO и помогает клиентам в сложных технических проектах SEO, я столкнулся с некоторыми другими проблемами, связанными с файлами robots.txt, которые могут оказаться для вас полезными.
Если поисковые системы найдут внешнюю ссылку на URL-адрес, запрещенный через файл robots.txt, они могут проигнорировать ваше правило и в любом случае сканировать страницу из-за внешнего сигнала. Вот что конкретно говорит Google ( источник ):
Однако robots.txt Disallow не гарантирует, что страница не будет отображаться в результатах: Google по-прежнему может принять решение, основываясь на внешней информации, такой как входящие ссылки, что она актуальна. Если вы хотите явно заблокировать индексацию страницы, вам следует использовать метатег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае вам не следует запрещать страницу в robots.txt, потому что страница должна быть просканирована, чтобы тег можно было увидеть и повиноваться.
Это последнее предложение дает дополнительную информацию. Если вы хотите, чтобы страница была удалена из индекса Google, она должна иметь метатег «noindex» в теге <head> или X-Robots-Tag в заголовке HTTP. Имейте это в виду, если вы пытаетесь удалить несколько низкокачественных URL-адресов из индекса Google, и подумайте, когда вы покажете запретить их через файл robots.txt.
Страницы на вашем сайте, которые были проиндексированы в поисковых системах до того, как они были запрещены через ваш файл robots.txt, могут по-прежнему появляться в индексах поисковых систем при выполнении запроса site: domain.com , но под ними есть сообщение (например, в Google), что гласит «Описание этого результата недоступно из-за robots.txt этого сайта». Чтобы получить их, нужно разблокировать их в файле robots.txt (удалить правило «disallow») и применить мета-тег roots «noindex» (или тег X-robots). Как только вы подтвердите, что поисковые системы выпали из своего индекса, вы можете снова заблокировать их в файле robots.txt.
Будьте осторожны при использовании подстановочных знаков в ваших правилах «Запретить», когда вы используете URL-адреса отслеживания кампаний для платных поисковых / социальных кампаний, работающих с Google, Bing, Facebook и т. Д. «Рекламные роботы» для этих служб должны будут сканировать URL-адреса отслеживания кампаний. так что вы не можете их заблокировать.
По этой причине вы захотите добавить раздел агента пользователя для каждого «рекламного бота», который содержит правило «Разрешить» для каждого шаблона URL отслеживания кампании (т. Е. - Разрешить: / *? Utm_medium = * ).
Ниже приведены примеры правил для Google, Bing и Facebook, в качестве примера которых используется код отслеживания ? Utm_medium .
Пользовательский агент: Adsbot-Google Allow: / *? Utm_medium = * Пользовательский агент: AdIdxBot Allow: / *? Utm_medium = * Пользовательский агент: Facebot Allow: / *? Utm_medium = *
Вы можете найти более подробную информацию о каждом из этих сканеров по следующим ссылкам:
Если у вас большой веб-сайт с расширенной функциональностью (например, отфильтрованные и ограненные URL-адреса на страницах категорий), просмотрите ваш сайт с помощью имитатора поискового бота, такого как Кричащая лягушка может помочь раскрыть некоторые потенциальные ловушки для поисковых систем.
После завершения сканирования найдите шаблоны URL-адресов, которые явно не являются качественными страницами, которые поисковые системы должны сканировать и индексировать. Запишите для них символы подстановки «Disallow» в файле robots.txt, чтобы поисковые системы не тратили свое время на их сканирование (и не на полное сканирование контента, который вы действительно хотите сканировать и индексировать). Одна из самых распространенных ловушек, которые я видел, это отфильтрованные / ограненные URL.
Я приветствую вас использовать мой файл WordPress robots.txt как шаблон. Я неоднократно проверял его, чтобы убедиться, что мои правила не блокируют какой-либо важный контент, а также что Google может сканировать мои файлы JavaScript или CSS. Не стесняйтесь использовать его в качестве отправной точки, но обязательно используйте Просмотреть как Google а также Robots.txt Tester инструменты в консоли поиска Google, чтобы настроить его для вашего конкретного сайта. Вы также захотите настроить URL-адрес XML-карты сайта (конечно!).
Есть вопросы? Оставьте их в комментариях, и я буду рад ответить на них.
Copyleft © 2017 . www.prirodnadzor-penza.ru