Top.Mail.Ru
EN
18 февраля 2022

Директор по анализу данных X5 — про A/B-платформу для проверки бизнес-гипоетез

Михаил Неверов, директор по анализу данных компании X5 Group, — о создании платформы, автоматизирующей оценку и принятие решений по бизнес-кейсам на основе метода A/B-тестирования. Платформа позволяет оценивать предлагаемые инициативы одинаковым образом, что позволяет своевременно приостанавливать финансирование невыгодных предложений и масштабировать действительно полезные.

Розничные компании, находящиеся в условиях серьезной рыночной конкуренции, вынуждены непрерывно искать способы повышения своей конкурентоспособности и устойчивости на рынке. Но как понять, поможет ли реализация очередного предложения изменить бизнес к лучшему и стоит ли вкладываться в эту инициативу.

Чтобы ответить на эти вопросы, крупные интернет-проекты нередко применяют A/B-тестирование. Его суть заключается в том, что предложенные инициативой изменения вводятся только для части пользователей, тогда как для другой части все остается по-прежнему. По истечении некоторого времени данные по этим двум группам сравнивают, оценивают, а затем делают вывод о том, позволили эти изменения улучшить нужные показатели или нет. Масштабирование инициативы на всех пользователей происходит лишь в том случае, когда показатели действительно улучшились.

Работает ли метод A/B-тестирования в розничной компании с большим числом офлайн-точек? Опыт X5 Group свидетельствует о том, что работает, причем успешно: практически любая выдвинутая в компании бизнес-инициатива на самом старте «упаковывается» в дизайн-эксперимент с гипотезами и методикой оценки, а затем по итогам проведенной работы проходит проверку A/B-тестированием. Если результаты пилота признают полезными, его масштабируют на весь бизнес. О том, как A/B-тестирование работает в условиях X5 Group, какую пользу оно приносит и какая работа с данными за этим стоит, рассказывает Михаил Неверов, директор по анализу данных компании и номинант на премию Data Award 2022 .

— A/B-тестирование широко применяется в электронной коммерции. Как можно объяснить то, что оно достаточно редко используется в традиционном ретейле? И почему ваши коллеги посчитали, что оно им необходимо?

Традиционно в ретейле используют подход like-for-like (LFL) с разного рода усложнениями. Это базовый показатель, но он не всегда полностью отображает картину мира — особенно для узких бизнес-пилотов. Ситуация в ретейле динамично меняется, причем влияют на нее множество факторов. A/B-тестирование позволяет лучше, чем LFL, отслеживать границы случайных и неслучайных изменений. Оно редко применяется в «классическом» ретейле, вероятно, потому, что для проведения A/B-тестирования нужен достаточно большой объем данных — это необходимо для статистической значимости результатов. Поэтому если, например, розничная сеть охватывает всего 10 магазинов, то ей придется использовать именно LFL, поскольку для проведения A/B-тестирования имеющегося у нее объема данных будет недостаточно.

— В чем видят пользу A/B-тестирования бизнес-пользователи X5 Group ?

Процесс A/B-тестирования предоставляет компании общий подход к оценке разных бизнес-инициатив, что повышает ее точность. Он позволяет схожим образом оценивать и инвестиционные инициативы, и внедрение изменений (например, замену кассового оборудования на новое), и продуктовые инициативы. Компания получает возможность одинаковым образом получать ответ на поставленные вопросы: приносит ли та или иная инициатива деньги, какова ее выгода, следует ли ее продолжать? При проведении A/B-тестирования не нужно каждый раз изобретать новый велосипед — это универсальная форма проверки бизнес-гипотез.

A/B-тестирование — удобный и полезный инструмент принятия решений в отношении инвестиций. Каждый год компания проводит около 400 A/B-тестов. С их помощью мы получаем возможность уже на ранних этапах выявлять невыгодные инициативы и прерывать их финансирование, что позволяет более разумно распорядиться средствами.

— Кто явился непосредственным заказчиком платформы A/B-тестирования в X5 Group? Какие заинтересованные лица выступили в качестве спонсоров проекта по ее созданию?

Вся наша компания заинтересована в том, чтобы решения на основе статистических данных применялись на всех уровнях, потому что это делает процессы прозрачными как для сотрудников, так и для менеджмента.

Амбассадорами применения A/B-тестирования в компании стали специалисты из бизнес-единицы «Х5 Технологии» — центра компетенций по ИТ и большим данным для всех бизнесов и торговых сетей группы. Мы начинали с экспериментов на ИТ-продуктах, затем распространили идею на все торговые сети и теперь развиваем подход вместе с ними. До создания платформы мы проводили анализ данных фактически вручную. Когда пользователи убедились в том, что подход работает, а количество тестов перевалило за сотни, мы, чтобы не наращивать штат аналитиков, решили автоматизировать A/B-тестирование. Так, собственно, платформа и появилась.

— Как происходит сбор данных для A/B-тестирования, из каких источников они поступают и как их используют при проведении тестов?

Исходные данные для A/B-тестов — это чеки наших покупателей с указанием времени и места, где они были оплачены. Чеки обрабатывают, агрегируют, с помощью различных приемов сокращают статистические выбросы, после чего оценивают эффект. Большая часть первичных данных хранится в Hive. Разумеется, в платформе есть своя витрина данных, и в ней происходит некоторое упрощение исходных данных.

— Какие виды обработки и анализа используют в ходе A/B-тестирования в вашей компании? Как формулируют гипотезы и выбирают методы для проведения очередного исследования?

Исходной точкой для проведения A/B-тестирования является некая инициатива, в отношении которой бизнес хочет принять решение об инвестициях. Мы формулируем дизайн эксперимента: выбираем метрики, определяем, в частности, что будем проверять (розничный товарооборот или средний чек), фиксируем ошибки первого и второго рода. Затем происходит подбор контрольной пилотной группы, а по окончании A/B-теста — оценка результатов.

Из методов применяем медицинское тестирование, а также более современные подходы и основанные на них собственные разработки, отражающие специфику офлайн-бизнеса. Помимо этого, используем дерево принятия решений, нейронные сети, дискриминантный анализ, бустинг, байесовские классификаторы. Эти методы не являются чем-то принципиально новым для рынка, но мы как раз сторонники того, чтобы использовать проверенные подходы.

— Как проводят эксперименты, а затем оценивают и интерпретируют результаты исследований на основе A/B-тестирования?

Процесс организован следующим образом. Бизнес-сотрудники — пользователи нашей платформы формулируют гипотезу и вместе с adhoc-аналитиками «закрепляют» ее, то есть проводят предварительную оценку эффекта. Затем берется нужный объем данных, и в кластере A/B-тестирования его разделяют на две группы: в первой изменения происходят, а во второй — нет. Потом, по прошествии времени, проводится сравнение экспериментальной и контрольной групп. Если изменения есть, мы их оцениваем, интерпретируем (в частности, объясняем, можно ли считать их статистически значимыми) и выносим вердикт относительно гипотезы. После этого наши выводы валидируются специалистами из финансового блока. Дело в том, что при работе с финансовыми показателями в ретейле есть специфика: здесь применяются сложные методики расчета и аудита. И чтобы быть уверенными в правильности наших выводов в отношении инвестиций, мы проводим оценку результатов совместно с коллегами из финансового департамента. Это особенно важно, когда попадаются пограничные значения. Всего в A/B-тестировании принимают участие четыре стороны: бизнес, аналитики, специалисты по рискам и финансам.

— Можно ли говорить о том, что в компании выстроен процесс A/B-тестирования?

Да, процесс есть, он работает. Если вы придете на работу в X5 Group и предложите какую-нибудь бизнес-инициативу, то непременно станете участником этого процесса.

— И много ли в нем творческой или субъективной составляющей?

Если в процессе участвуют люди, доля субъективности тоже может быть. Инициативы очень разные, поэтому нередко приходится придумывать дизайн эксперимента и формализовывать его вплоть до стандартного процесса. Субъективная составляющая здесь, скорее, в экспертных оценках: мы часто привлекаем экспертов, чтобы они помогли ответить на вопрос, следует ли считать изменение того или иного показателя в ходе эксперимента индикатором того, что этот эксперимент прошел удачно.

— Удалось ли избавиться от влияния человеческого фактора на A/B-тестирование?

Мы избавились от него ровно в той мере, в какой это было эффективно. В зависимости от дизайна эксперимента мы можем использовать разные модели (у нас их большое количество). Обычно их выбор — это либо коллегиальное решение, либо выбор на основе предыдущего опыта. Кроме того, мы, естественно, привлекаем экспертов, чтобы они помогли интерпретировать полученные результаты.

— Какое место занимает платформа A/B-тестирования в общем ландшафте аналитики и управления данными в X5 Group?

У платформы обособленное место. Она выведена в отдельный контур, потому что отвечает на чувствительные для бизнеса вопросы. Было бы странно, если бы команда, которая выдвинула инициативу и готова взяться за ее реализацию, имела возможность полностью самостоятельно и независимо от других коллег принимать решение о ее успешности. У нас более 100 инициатив и продуктов, которые прорабатываются и реализуются в постоянном режиме, не говоря уже о больших стримах или экспертных направлениях. Чтобы компания могла одинаковым образом получать ответы на вопросы о целесообразности инвестиций в инициативы, их команды были отделены от процессов принятия решений по таким предложениям. A/B-тестирование — это, если угодно, самый независимый инструмент для оценки инициатив.

— В каких направлениях планируете развивать платформу A/B-тестирования в обозримом будущем?

У нас три основных направления развития. Первое — расширение количества вариаций экспериментов. Иногда встречаются очень сложные кейсы, для которых в библиотеках моделей нет соответствующего решения. В таких случаях нам приходится что-то дописывать или как-то улучшать базу экспериментов. Второе направление — повышение их точности. Иногда даже дополнительные полпроцента точности могут полностью изменить оценку инициативы. И третье — сокращение времени на получение результатов оценки, что, очевидно, ускорит принятие решений в отношении инициатив.