Рубрики

Полезные материалы

Статистическое прогнозирование для SEO и аналитики (и бесплатный инструмент!)

  1. Большие одноразовые шипы
  2. Не использует достаточно данных
  3. Прогнозирование и цели
  4. Обнаружение изменений
  5. Расчет ROI

Статистическое прогнозирование - это мощный инструмент, который некоторое время использовался в Distilled как консультантами при анализе данных клиентов, так и нашим собственным инструментом мониторинга, который предупреждает нас о проблемах с клиентскими сайтами. В этом посте я публично запускаю бесплатный инструмент прогнозирования, о котором я говорил на прошлой неделе в BrightonSEO и объясняя, как наилучшим образом использовать его.

BrightonSEO

Вы можете получить доступ к инструменту на distilled.net/forecaster , Он использует пакет CausalImpact R, о котором вы можете прочитать в этот статья, опубликованная Google, если вы так склонны, но не беспокойтесь, если нет - точная цель инструмента - сделать эти методы доступными.

Поля слева позволяют вам создавать и настраивать свой прогноз:

  • Период позволяет выбрать, вводить ли данные за месяц или за день. Инструмент настроен на поиск годовой сезонности в ежемесячных данных (например, Черная пятница, школьные летние каникулы) и еженедельной сезонности в ежедневных данных (например, тихие воскресенья).

  • Дата начала - это дата первого ввода данных исторических данных, которые вы вводите.

  • Доверительный интервал контролирует зеленую область доверительного интервала, отображаемую на графике и в экспорте CSV - подробнее об этом ниже.

  • Точки данных - это место, где вы должны скопировать данные с вашей аналитической платформы. Я рекомендую вам использовать как минимум 24 месяца ежемесячных данных или как минимум 14 дней ежедневных данных (подробнее об этом ниже).

Я рекомендую вам использовать как минимум 24 месяца ежемесячных данных или как минимум 14 дней ежедневных данных (подробнее об этом ниже)

Диаграмма выше показывает доверительные интервалы для одной точки данных в прогнозе. Для любой отдельной точки данных ожидание является нашим прогнозом - именно здесь, если бы нам пришлось угадывать, мы бы сказали, что уровни трафика упадут для этого момента времени. Промежуток между двумя пунктирными линиями синего цвета - это диапазон, в котором, если наша модель справедлива, мы думаем, что существует 95% вероятность того, что уровни трафика упадут (в случае 95% доверительных интервалов). И, наконец, пространство за пределами этого диапазона - это место, где лежат остальные возможности - 2,5% с каждой стороны.

Вы можете быть знакомы с этой грубой концепцией из A / B-тестирования - когда мы говорим, что что-то значимо на 95%, это равносильно тому, что оно вышло за пределы 95-процентных доверительных интервалов - другими словами, если на самом деле ничего не изменилось (т.е. это A / A тест), есть только 5% шансов, что мы получим ценность настолько далеко от наших ожиданий.

Большие одноразовые шипы

Большие одноразовые шипы

На рисунке выше показаны исторические данные с двумя огромными всплесками трафика, вызванными творческими произведениями. Поскольку наша модель не помечает это, на самом деле она не смогла сделать ни одного из них, и в результате доверительные интервалы огромны.

Есть два варианта, когда ваши данные содержат аномалии, подобные этим:

  • Создайте модель, которая позволит вам пометить их. Это то, что мы собираемся добавить в инструмент, но сейчас вам нужно вернуться к инструментам регрессии в Excel.

  • Используйте наш инструмент, но используйте сегмент ваших данных, который исключает пики. Например, в этом случае я мог бы использовать сегмент, который включал только основные целевые страницы, приносящие доход.

Не использует достаточно данных

Я упомянул выше, что рекомендовал использовать как минимум 2 года ежемесячных данных или 2 недели ежедневных данных, и это не зря.

На приведенном выше графике показаны данные за 16 месяцев, но только за один январь - это пик в середине. Проблема здесь в том, что этот всплеск может представлять собой одноразовую аномалию или ежегодный всплеск в январе (например, продажи в январе), и нет никакого способа рассказать об этом без дополнительного контекста.

Хуже того, у вас может быть менее 12 месяцев данных:

Хуже того, у вас может быть менее 12 месяцев данных:

Теперь мы не можем определить, был ли этот всплеск в октябре ежегодным или разовым аномалией, и у нас также нет никакой информации о пропущенных месяцах - здесь вообще нет января. Если на вашем сайте наблюдается резкий скачок продаж в январе, любой прогноз, основанный на этих данных, не будет учитывать его в любом случае.

Прогнозирование и цели

Наиболее очевидное использование такого инструмента - это прогнозирование будущих уровней трафика. Поскольку любые прогнозы, основанные на исторических данных, предполагают, что вся информация, содержащаяся в этих исторических данных, является репрезентативной для будущего, прогноз - это прогноз того, что произойдет, если все будет продолжаться так же, как и раньше, поэтому если Google наказывает вас каждые 6 месяцев, это предполагает, что они будут продолжать делать это. Точно так же, если вы проводили непрерывную маркетинговую кампанию, это предполагает, что вы продолжите делать это.

Таким образом, если что-то не может внезапно измениться, это означает, что ваш прогноз также должен быть вашей целью. Нереально установить цель, которая предполагает чудесные изменения из ниоткуда. Это означает, что иногда вы обнаруживаете, что ставите отрицательные цели, и именно в этом случае такая методология действительно используется для обеспечения вступительного взноса - потому что вы можете обратиться к своему боссу, клиенту или заинтересованным сторонам и сказать: «Вот что произойдет, если ничего не меняется, вот что я предлагаю изменить ».

Обнаружение изменений

Иногда возникает вопрос не «что произойдет, если ничего не изменится?», А «что-то изменилось?». В этих случаях методология немного отличается. Вместо того, чтобы брать все данные до настоящего времени в качестве входных данных для нашего прогноза, мы должны взять все данные до даты предполагаемого изменения, которое мы хотим исследовать.

Например, скажем, клиент хочет изучить последствия ноябрьской миграции, которая, по их мнению, была отрицательной. Мы бы взяли данные за период до (но не включая) ноября, а затем прогнозировали бы с этого момента. Это означает, что мы создаем прогноз того, что произойдет с ноября и далее, если все будет продолжаться, как прежде - это называется контрфактуальным и изображено ниже.

Это означает, что мы создаем прогноз того, что произойдет с ноября и далее, если все будет продолжаться, как прежде - это называется контрфактуальным и изображено ниже

Синие пунктирные линии - это 95% доверительные интервалы. Если фактические уровни трафика оставались в пределах диапазона, прогнозируемого на основе трафика перед миграцией, мы склонны считать, что миграция не имела существенного эффекта. Если фактические уровни трафика выходят за эти границы, с другой стороны, то точки, в которых они это делают, представляют статистически значимый эффект миграции.

Если фактические уровни трафика выходят за эти границы, с другой стороны, то точки, в которых они это делают, представляют статистически значимый эффект миграции

Выше я добавил фактические уровни трафика на том же графике, и похоже, что любой эффект миграции был относительно недолгим.

Расчет ROI

Случай для расчета ROI довольно похож на то, как мы будем обнаруживать изменения, за исключением двух основных факторов:

  • Мы, вероятно, заинтересованы в доходе, а не в сессиях (хотя нет причин, по которым вы не могли бы обнаружить изменение дохода)

  • Теперь нас меньше интересует, было ли изменение значительным, чем то, насколько оно было далеко от ожидаемого - это число представляет собой наше лучшее предположение о том, какой дополнительный доход был получен в течение этого месяца или дня.

Обратите внимание на «лучшее предположение», которое приводит меня аккуратно на:

Эти методы все о том, что, а не о том, почему или как.

Например, предположим, что вы использовали контрфактуальность, чтобы измерить эффект изменения SEO на странице. Если что-то еще произошло в одно и то же время (возможно, упоминание в неизвестном телевизионном шоу), то вы не можете отделить эффект этих двух событий без более сложной модели. И даже если вы создадите более сложную модель, вы все равно могли что-то упустить.

Этот подход заслуживает того, чтобы его использовать, и он значительно превосходит поразительные и смутные банальности, традиционно используемые в нашей отрасли, но вам все равно нужно знать, что происходит.

Как вы думаете? Позвольте мне знать в комментариях ниже.

», А «что-то изменилось?
Как вы думаете?