Работа с сырыми данными
в Google Analytics
Время идет, и количество данных в наших аккаунтах Google Analytics все больше и больше, и все бы ничего, но включается сэмплирование и результаты наших трудов (особенно по revenue) становятся не точными.

А раз так, то делать какие-либо выводы на базе этих данных сложно, можно получить не релевантные результаты.

В этой статье я разберу способы, которые вы можете использовать для решения этой проблемы.
Что такое сэмплирование?
Согласно документации Google Analytics, в обычных аккаунта (не премиум) при достижении объема данных на ресурс больше чем 500 000 сеансов для используемого диапазона дат включается сэмплирование, т.е. данные по метриками (например коэффициент транзакции) считается не от общего объема сессий, а на основе некоторой выборки:
У вас есть возможность, используя ползунок с точностью, увеличить точность или скорость выборки данных, что увеличит объем данных для анализа или быстрее даст результат по вашей выборке.

Но в любом случае, показатели, которые рассчитываются на базе ваших данных будут не точными, и порой, расхождение с реальными данными может быть значительными.

Разберем способы, позволяющие работать с точными данными.
1. Работа в аккаунте Google Analytics
— Google Analytics 360 (Premium)

Обратившись к региональному представителю (например owox), который поможет вам выбрать и настроить корректную передачу данных в Google Analytics 360, вы, сможете пользоваться расширенным функциями Analytics 360 и повышением лимитов (в том числе лимит на сэмплирование будет уже 100 млн. сеансов).

— Разделение на различные Property

Другое решение, это уменьшить объем данных в одном Property, можно разделить региональные версии сайта или на мобильную/десктоп версию, но в таком случае возникает сложность с объединением этих данных для получения общих показателей.

— Работа с небольшими промежутками времени

Также, вы можете брать для анализа небольшие промежутки времени, где данные будут не сэмплировать (например, неделя или день). Но такое решение подойдет разве что для одноразового использования какого-нибудь важного показателя, потому что постоянно смотреть данные за большой период небольшими порциями очень не удобно.

2. Выгрузка данных в внешние базы данных
С этим способом все интересней, так как у вас есть возможность выгрузить сырые данные и работать с ними в любом инструменте. Минусом же подхода является то, что работа будет вне привычного интерфейса Google Analytics и необходим определенный навык.

— BigQuery

СУБД от Google, которая позволят загрузить большие объемы данных и быстро с ними работать. Одним из плюсов, это простая интеграция с сервисами от Google, например, чтобы начать импортировать данные по AdWords, нужно просто взять скрипт и разместить в своем аккаунте, или же для Firebase нужно нажать пару галочек.

Загружать данные в bigQuery можно разными способами:

решение от OWOX, все классно, настроил один раз и работает, но за деньги)
самостоятельный стриминг данных , тут придется повозиться с настройкой, и, возможно, модификаций скриптов под свои задачи, зато платить только за пользование bigQuery

Чтобы работать с этими данными вы можете использовать любые удобные вам среды, например, есть дополнение для SpreadSheets от OWOX для работы с biqQuery или же, такое же, но от supermetrics.


— ClickHouse

Тоже, что и bigquery, но opensource. Вы самостоятельно все устанавливаете и настраиваете на сервер (ваш же), и оптимизируете, при необходимости (кстати есть хороший телеграмм-группа с поддержкой https://t.me/clickhouse_ru).

На данный момент, пока не очень много готовых решений для стриминга и работы с этими данными, но постепенно они появляются.


— Google Spreadsheets\Excel

Это конечно не базы данных и тоже есть свои ограничения, но для небольших и однотипных задач вполне подойдет. Например, с помощью, стандартного дополнения к Google Spreadsheets от Google вы можете выгрузить хоть за каждый день данные и легко их объединить и работать с ними. Таких расширений множество, и в маркете Spreadsheets вы можете подобрать что-то другое.

Также, можно грузить данные напрямую в Excel, с помощью плагина Analytics Edge. У них, кстати, классный блог.

Но опять же, если в вашем аккаунте много сессий, то для того чтобы получить не семплированные данные, придется повозиться.

3. Другие решения
— Logs API

Но в принципе, нам не обязательно работать с Google для решения наших задач по сбору не сэмплированых данных, вполне можем грузить из Яндекс Метрики. Вот, кстати, классный вебинар о том, что можно сделать с ним.

— Madstats.io

https://madstats.io — решение, которое мне дали на тестирование пару дней назад, пока оно бесплатное и, что самое важно, позволяет вам избавиться от головной боли с выгрузкой данных и подбору параметров, не вылезающих за квоты. По моим оценкам, 2 млн сеансов я выгрузил за 30 минут, сохранил себе и уже могу работать в том же Excel. Вот некоторые плюсы решения:
— GoogleAnalyticsR

Для тех, кто не ровно дышит к R (привет Алексей Селезнёв), есть вот такое решение от Mark Edmondson, которое загружает нужные данные в R.


Коллеги, если вы знаете еще решения, пишите в комментариях!

Made on
Tilda