Раздувание индекса является одной из наиболее распространенных проблем SEO, с которыми сегодня сталкиваются веб-сайты, особенно сайты электронной коммерции.
Это происходит всякий раз, когда Google индексирует страницы, которые не должны быть проиндексированы. Раздувание индекса может произойти практически с любым веб-сайтом в результате проблем с разбиением на страницы, индексацией защищенных и небезопасных версий вашего сайта или даже разрешением Google индексировать категории, теги и архивы блогов WordPress.
Сайты электронной коммерции являются наиболее распространенным виновником вздутия индекса. Большинство сайтов электронной коммерции имеют списки фильтров или виджеты, которые позволяют пользователям быстро находить продукты, соответствующие их спецификациям. Например, в Amazon есть фильтры «Средняя оценка клиента» или «Самая низкая цена». Однако такие фильтры обычно создают новые страницы после того, как пользователь выберет конкретные параметры. Когда Google посещает веб-сайт, он обычно следует всем ссылкам и кнопкам на веб-странице, включая фильтры, которые могут привести к тому, что он будет индексировать тысячи страниц, не представляющих уникальной ценности для Google или пользователей.
Раздувание индекса может быть огромной проблемой SEO для вашего сайта. С одной стороны, это сбивает с толку поисковые системы, особенно когда есть потенциально тысячи вариантов одной категории продукта. Когда поисковые системы сталкиваются с веб-сайтом с раздуванием индекса, они могут изо всех сил пытаться понять, какая страница является наиболее релевантной для поисковиков и может предоставить не релевантные результаты - то, чего Google хочет избежать любой ценой.
Индекс вздутия также вызывает проблемы с дублированным контентом , поскольку эти страницы обычно не имеют уникального содержания или метаинформации. Помните, это то, что Google говорит о дублированном контенте:
Дублированный контент обычно относится к существенным блокам контента внутри или между доменами, которые либо полностью совпадают с другим контентом, либо заметно схожи. Главным образом, это не обманчиво по происхождению.
Несмотря на то, что дублированный контент не является основанием для того, чтобы Google пытался вас заполучить, он не оказывает никакого содействия вашему сайту. На самом деле, гораздо лучше сделать ваш контент и метаинформацию уникальной, поскольку Google предпочитает показывать страницы, которые будут предлагать пользователям полезный контент, который они не смогут найти где-либо еще. Все это способствует улучшению взаимодействия с пользователем.
Раздувание индекса также может снизить бюджет и частоту сканирования, не позволяя Google сканировать и индексировать важные страницы и разделы вашего сайта. Если Google сосредоточится на неправильных страницах, это может привести к значительному снижению рейтинга, трафика и, в конечном итоге, конверсий.
Если вы подозреваете, что вздутие индекса является причиной недавней потери рейтинга, есть простой способ выяснить это. Одним из признаков раздувания индекса является чрезмерное количество проиндексированных страниц - число, намного превышающее количество страниц, которые, по вашему мнению, должны были проиндексировать Google. Если ваш индекс недавно испытал какие-либо колебания, вы можете стать жертвой.
Перейдите в консоль поиска Google и нажмите «Статус индекса» в разделе «Индекс Google». Вы можете увидеть что-то вроде этого:
В этом конкретном примере мы заметили быстрый рост числа проиндексированных страниц, начиная с конца апреля.
Однако, как правило, найти раздувание индекса не так просто, и, как правило, требуется больше выяснить, действительно ли это происходит или нет. Веб-сайты могут не иметь каких-либо недавних колебаний в размере индекса, или у них может отсутствовать подозрительное количество проиндексированных страниц. В этих случаях вы можете продолжить расследование, ведя сайт: в Google.
Вот пример, который мы сделали для Forbes:
С помощью оператора site: вы ограничиваете поиск только указанным веб-сайтом. В этом примере вы можете видеть, что Google использует приблизительно 1 300 000 страниц из Forbes, которые были проиндексированы. (Важно отметить, что номера индексов в Google Search Console и Google.com обычно не совпадают, но они близки.)
Итак, теперь, когда мы провели сайт: поиск, нам нужно просмотреть каждую страницу результатов поиска Google, чтобы найти общую тему в параметрах или страницах, которая может вызывать вздутие индекса. Иногда вы можете ускорить этот процесс, переходя к последним страницам результатов поиска, так как Google обычно хранит наименее релевантные результаты на последних страницах. Вот так:
В этом случае мы обнаружили почти сотню страниц, проиндексированных Google с pingdom.com, где были сохранены тесты скорости страниц. Эти страницы не добавляют Pingdom никакой ценности в отношении SEO, поскольку у них нет уникального заголовка, метаинформации или контента (кроме статистики времени загрузки страницы для доменов). Это те типы страниц, на которые вы хотите обратить внимание в своем индексе Google, потому что они без необходимости увеличивают размер вашего индекса, истощают ресурсы поисковой системы и запутывают поисковые системы.
Теперь, когда мы определили некоторые проблемные страницы, мы можем запретить поисковым системам индексировать эти страницы несколькими различными способами, тем самым уменьшая раздувание индекса вашего сайта. Важно отметить, что, хотя иногда можно использовать только один из этих методов, более крупным веб-сайтам может потребоваться их сочетание для надежного решения проблемы.
Мета-тег robots - это один из лучших вариантов быстрого сокращения индекса, поскольку он имеет приоритет над robots.txt, нумерацией страниц и канонизацией. Тэг meta robots можно использовать, чтобы явно указать поисковым системам, какие страницы они имеют и не могут индексировать. Когда вы сталкиваетесь с типом страницы, который не должен быть проиндексирован, все, что вам нужно сделать, это просто добавить следующий код в заголовок:
< META NAME = "ROBOTS" CONTENT = "NOINDEX, FOLLOW">
(Примечание: в некоторых случаях это может быть необходимо сделать программно.)
Указывая «NOINDEX, FOLLOW», вы говорите поисковым системам, что им не следует индексировать страницу, но они могут свободно переходить по любым ссылкам на этой странице. Это гарантирует, что поисковые системы могут по-прежнему получать доступ к остальной части вашего сайта без индексации самой страницы.
Ваш файл robots.txt может использоваться, чтобы сообщать поисковым системам и другим роботам, какие области (или параметры) вашего веб-сайта им разрешено сканировать.
Как видно выше, параметры и URL-адреса могут быть заблокированы с помощью директивы disallow. Однако важно отметить, что когда вы блокируете Google с помощью файла robots.txt, ваш сайт все же может быть проиндексирован.
Мы знаем, что вы думаете: «Подожди, что? Я думал, что с помощью «запретить» Google был заблокирован с этих страниц! »
Это почти правда. В действительности файл robots.txt не позволяет Google сканировать страницу, но индексирование страницы все еще возможно, особенно если страница связана с другой веб-страницей, которая не заблокирована вашим файлом robots.txt. Если вы знаете, где эти страницы связаны, вы можете легко запретить Google индексировать их, сделав ссылки на эту страницу «nofollow».
Средство удаления URL-адресов Google в консоли поиска Google может оказаться полезным для удаления этих страниц из индекса Google после того, как будут приняты соответствующие меры, чтобы гарантировать, что они не будут повторно проиндексированы.
Некоторое увеличение индекса может быть вызвано старыми веб-страницами, которых больше нет на вашем сайте. Они могут решить как 404 ошибки. Со временем Google в конечном итоге удалит эти страницы из своего индекса, но кто знает, сколько времени это может занять? Вы можете ускорить процесс и дать Google дополнительный толчок для удаления этих старых веб-страниц из своего индекса, перенаправив их на самую релевантную страницу. Это также гарантирует, что вы сократите количество ссылочного сока, которое вы теряете на этих страницах.
Канонический тег используется, чтобы сообщить поисковым системам, какая версия страницы является предпочтительным URL для индексации. Это особенно полезно, когда у вас есть несколько URL для одного и того же контента. Добавление канонического тега в заголовок указывает, какую версию страницы должны индексировать поисковые системы. Просто убедитесь, что все версии страницы, включая предпочитаемую страницу, должны указывать на один и тот же предпочтительный канонический URL.
Разбиение на страницы обычно происходит, когда у вас есть более одной страницы категорий продуктов, сообщений в блоге или результатов поиска на странице. Поскольку эти страницы содержат одну и ту же метаинформацию, вы должны сообщить поисковым системам о взаимосвязи между страницами, чтобы они не идентифицировались как дублированный контент.
Добавление разметки нумерации страниц также уменьшит количество индексируемых страниц, поскольку поисковые системы будут лучше понимать взаимосвязь между страницами и будут знать, какие из них следует проиндексировать или нет.
Добавить нумерацию страниц к своим заголовкам на этих страницах довольно просто. Например, если у вас есть страница, такая как http://www.example.com/blog?category=seo&page=2 тогда вы добавите следующие теги в свой заголовок:
< link rel = "prev" href = "http://www.example.com/blog?category=seo&page=1" /> < link rel = "next" href = "http://www.example.com/ blog? category = seo & page = 3 "/>
Инструмент URL-параметров в консоли поиска Google можно использовать, чтобы сообщить Google, что ваши параметры URL-адреса влияют на содержание ваших страниц. Этот инструмент влияет только на результаты поиска Google, поэтому его следует действительно использовать только в том случае, если предыдущие методы не помогли или не являются приемлемыми. Как и многие методы, перечисленные в этой статье, вы должны быть очень осторожны, чтобы случайно не исключить URL-адреса, которые должны быть проиндексированы, или указать неверное поведение для параметров, поскольку это может негативно повлиять на ваши усилия по SEO.
В Инструменте параметров URL Google классифицирует ваши параметры на две основные категории - активные параметры и пассивные параметры. Как вы, вероятно, догадались, активные параметры изменяют то, что отображается на странице, тогда как пассивные параметры не влияют на содержимое, отображаемое на странице (источник UTM, идентификаторы сеанса и т. Д.).
С определенным активным параметром может быть связано несколько действий, таких как разбиение на страницы, перевод, сортировка, сужение и указание. Вы также можете указать несколько опций относительно того, какие URL и значения параметров также являются целевыми. Если вы еще не знакомы с этим инструментом, настоятельно рекомендуем прочитать Документация Google так что вы хорошо понимаете, что делает каждое действие.
Индекс Google иногда бывает довольно упрямым. Даже после того, как вы попробовали некоторые из указанных выше методов, вы все равно можете найти страницы в индексе Google, которых просто не должно быть. Чаще всего это происходит, когда страница заблокирована с помощью robots.txt, и Google все равно индексирует ее, поскольку она связана с другой страницей вашего сайта. Добавление тега nofollow к этой ссылке может предотвратить это, но даже в этом случае вы можете обнаружить, что страницы не удалены из поисковой выдачи Google. Расстраивает, нет?
В подобных ситуациях вы всегда можете воспользоваться инструментом удаления URL-адресов в консоли поиска Google. Использование этого инструмента позволяет запрашивать у Google удаление определенных URL из своего индекса. Запросы обычно обрабатываются в тот же день, когда они запрашиваются, поэтому это может быть быстрый способ выбить все оставшиеся URL-адреса, которые не должны были быть проиндексированы, если все другие методы не сработали.
Важно отметить, что это временная мера; если вы не предприняли никаких мер для предотвращения повторной индексации этих страниц в будущем, то они вернутся к индексу Google, когда Google будет сканировать ваш сайт в будущем.
Теперь у вас есть инструменты и знания, чтобы не только найти, но и решить проблему раздувания индекса. Теперь вы должны взглянуть на свой собственный веб-сайт и посмотреть, если он испытывает симптомы. После того, как вы определили проблему, воспользуйтесь некоторыми или всеми из следующих методов, чтобы устранить ее:
Используя комбинацию этих методов или все эти методы, вы сможете представить свой сайт в Google таким образом, чтобы он соответствовал их требованиям и позволил вам получить заслуженный рейтинг.
Примечание . Мнения, выраженные в этой статье, являются мнением автора, а не обязательно мнением Caphyon, его сотрудников или партнеров.
Джон Кайоццо является SEO-аналитиком в SEO Inc. одна из ведущих компаний в мире по поисковой оптимизации в мире с 1997 года. Джон специализируется на создании передовых технических решений и стратегий SEO для увеличения трафика и конверсий на клиентские сайты. Просмотреть все сообщения от John Caiozzo
Copyleft © 2017 . www.prirodnadzor-penza.ru