Главное Авторские колонки Вакансии Образование
6 103 2 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Семплирование: когда возникает и как от него избавиться?

Отчет основан на данных 10% посещений. Такое заявление Google Analytics не новость, если вы работаете с большим массивом данных. Что же такое семплирование и как от него избавиться?
Мнение автора может не совпадать с мнением редакции

Создать отчёт в Google Analytics. Простая задача, пока не увидишь такое уведомление:

Что это значит? Google Analytics берёт 10% данных. Домножает их на 10. И говорит, что 100% так бы себя и вели.

Это классно, когда работаешь с большими цифрами. Отчёт готовится быстро.

Но есть и недостатки. Представьте, что вы получили 1 из 10 кусочков торта. И нужно понять, сколько на торте свечек. Если вам попался кусок без свечки — вы скажете, что 0. Если с 1 свечкой — то 10. А если 2 — то 20.

Так же и в аналитике. Вы выгружаете статистику по ключевым словам. Analytics построил отчёт на 10% данных. В эти данные вошёл запрос, который ввёл только 1 человек. Но в семплированном отчёте вы увидите, словно этот запрос привел 10 людей.

Семплирование искажает данные. Как от него избавиться?

Решение 1. Google Analytics Premium

Инструмент стоит $150 000 в год. Будет полезен, если проект посещаемый и вы сталкиваетесь с семплированием постоянно. Либо если вы делаете сложные выборки.

Смотрите видео о возможностях Google Analytics Premium.

Проблема в том, что в GA Premium тоже есть семплирование. Но можно выгрузить выборку на сторонний ресурс. Например, в Excel. И там уже обрабатывать сырые данные.

Плати, не плати. Excel все равно понадобится.

Решение 2. Попытаться обойти семплирование

Чтобы обойти семплирование, нужно понимать, как оно возникает.

Когда возникает семплирование?

1. Нестандартный отчёт

Например:

  • Пользовательские отчёты — Custom Reports;
  • Расширенные сегменты — Advanced Segments;
  • Использование дополнительных переменных — Secondary Dimensions.

2. Много данных

Если в отчёте за период:

Чем больше информации нужно выгрузить — тем чаще встречается семплирование.

Как обойти семплирование?

1. Короткие периоды времени

Например, вы создаёте отчёт за год. Возникает семплирование. Вместо 1-го большого создайте 12 маленьких отчетов. На каждый месяц. Выгрузка данных займёт больше времени. Зато семплирование может отключиться.

2. Высокая точность вместо быстрой обработки

При создании отчётов в Google Analytics кликните по такой иконке:

И порог семплирования умножается в 2 раза. Отчёт строился на 10% данных? После выбора Высокой точности он будет дольше грузиться, но захватит уже 20% выборки.

3. Отфильтрованные заранее представления (Views)

Что такое отфильтрованные представления? Например, это представления с посещениями только из контекстной рекламы. Или с посещениями только по какой-то конкретной кампании.

Если вы планируете создать отчет и сегментировать в нём данные, поменяйте порядок действий. Создайте заранее отсегментированные представления. И выгружайте отчёты отдельно для каждой части данных.

Но это не всегда работает. Сложные отчёты даже в фильтрованном представлении могут быть семплированными.

4. Упрощённый запрос

Сделайте выборку проще, чтобы меньше нагружать Analytics. Например, вы привыкли фильтровать какой-то параметр по регулярному выражению. Попробуйте профильтровать по точному. Возможно, часть данных будет уже проще обработать в Excel.

5. Решения на основе API — Google Analytics Query Explorer 2

Google Analytics Query Explorer 2

Это песочница от Google. Она использует тот же язык запросов. Здесь вы можете строить запросы. Делиться ссылкой с коллегой.

Преимущества

  • Можно использовать больше Dimentions — максимум 7.
  • Данные можно стягивать из разных профилей. Удобно если у вас несколько сайтов.
  • Данные после выгрузки можно объединять с другими базами — CRM-система, SQL-база.

Ограничения

Все API

  • 50 000 для проекта в день
  • 10 запросов в секунду на IP

Core Reporting API

  • 10 показателей
  • 7 параметров
  • 10 000 строк данных как результат запроса
  • 10 000 запросов для профиля в день
  • 10 параллельных запросов для профиля

Как работает? Строите запрос — какие данные хотите получить. Даёте ссылку на отчёт программисту. Просите выгрузить данные по API.

Обратите внимание! Google Analytics Query Explorer выгружает до 10 тыс. строк за один раз.

Что делать, если выборка имеет больше 10 тыс. строк? Чтобы выгрузить все данные, можно построить несколько запросов:

  • Запрос 1. Выгрузить 10 000 строк (max-results) от строки 1 (start-index)
  • Запрос 2. Выгрузить 10 000 строк (max-results) от строки 10 001 (start-index)
  • Запрос 3. Выгрузить 10 000 строк (max-results) от строки 20 001 (start-index)...

Существуют другие инструменты, с помощью которых можно выгружать данные с Google Analytics. Они защищают от семплирования. А для особо крупных проектов — значительно уменьшают его. Читайте о том, какие бывают источники данных для интернет-проекта, кроме Google Analytics.

Supermetrics Data Grabber

Это дополнение к Excel. Работает с Windows Excel 2003+ и с Mac Excel 2011.

Вытягивает данные из 
Google Analytics, Google AdWords, Bing Ads, Facebook, Youtube, Twitter.

Стоимость: 39-174$ в месяц.

Как работает? Выбираете период, метрики и ставите галочку Попытаться избавиться от семплирования. И выгружаете отчёт.

Supermetrics 
for Google Docs

Дополнение к Google Docs, Google Sheets.

Вытягивает данные из 
Google Analytics, Google AdWords, Google Webmasters Tools, Bing Ads, Facebook, 
 Youtube, Twitter, Database.

Стоимость: бесплатно, 49-99$ в месяц.

Платная версия частично решает проблему семплирования. Бесплатная — нет.

Как работает? В Google Docs появляется колонка справа. В ней можно выбрать, по каким параметрам строить отчет. Выгружает до 100 000 строк.

Analytics Canvas

Программа, которая работает на Windows XP, Vista, 7, 8

Вытягивает данные из
 Google Analytics, Bing Ads, файлы Excel,
 Database (SQL etc.)

Стоимость — 49-798$ в месяц

Преимущества. Экспортирует затраты в Google Analytics.

Как работает? Как база данных. Выгружает информацию из Google Analytics. Может объединять разные куски данных между собою. Например, из CRM выгрузили номер заказа и сумму. А из Google Analytics — номер заказа и рекламный источник. Инструмент объединят данные в единую таблицу.

Язык программирования R + дополнение RGA

Работает с Windows, Mac.

Вытягивает данные из Google Analytics.

Преимущества. Бесплатный инструмент.

Как работает? Специальный скрипт подгружает несколько библиотек. Идёт к API на Google Analytics.

Чтобы обойти семплирование, обратите внимание на 2 параметры: batch и walk.

Batch. Делит выборку на группы по 10 000 строк. Выгружает данные порциями. Как Google Analytics Query Explorer.Потом склеит все в один файл.

Walk. Полезен, когда выгружаете данные за большой период. Параметр делит данные по дням. Если вы создаёте отчёт за 1 год, параметр walk поделит его на 365 отдельных блоков. Выгрузка данных займет больше времени, зато вы избавитесь от семплирования.

Файлы для установки, инструкцию по настройке и скрипт для R+RGA смотрите на Roman.ua.

Не довольствуйтесь малым. Анализируйте все данные!

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем