Основы статистики для продактов
Содержание
Давайте разберёмся в базовых статистических концепциях и их применении в работе продакта (и не только). Не пугайтесь, тут всё будет понятным языком для простого смертного.
Выборка
Очень упрощённо, выборка — это набор данных, к которым мы применяем статистический анализ. В самом простом виде данные — это табличка из значений, например, таких как скорость загрузки страницы. Каждая строчка — один факт загрузки страницы и показатель скорости в миллисекундах. Или каждая строчка — это покупка, а данные — средний чек.
Выборка у нас есть, что мы можем с ней сделать полезного?
Математическое ожидание (mean), оно же среднее арифметическое (average)
МО — это то же самое, что и среднее арифметическое. Математики хотели возвысить себя над остальным миром и придумали свой термин в контексте мат статистики. В русскоязычном пространстве термин вряд ли встретится в обычной работе (если вы не data scientist), а в англоязычном "mean" вполне себе распространено.
Посчитать среднее арифметическое, думаю, могут все. Складываем все числа, делим на их количество. Получаем что у нас там происходит "в среднем." Например, какой у нас средний чек в интернет-магазине. Или средний рейтинг товара. Или средняя скорость загрузки страницы.
Среднеквадратичное отклонение (standard deviation)
Под этим страшным названием кроется весьма простая концепция. В так называемом "нормальном" распределении СКО показывает насколько данные разбросаны относительно среднего значения.
Для того, чтобы это понять, нужно представить себе нормальное (оно же Гауссово) распределение. Результаты этого опроса — типичное нормальное распределение. Пик в центре "колокола" (нормальное распределение ещё называют "bell curve"), от которого относительно равномерно значения расходятся по сторонам, постепенно угасая.

Большинство данных подчиняются нормальному распределению. Это магия больших чисел. Золотое сечение в статистике.
Итак, СКО — это степень разброса относительно среднего. Если в нашем интернет магазине средний чек 100 долларов и он варьируется от 90 до 110, то СКО будет маленьким. Если вариация от 10 до 300, то СКО будет большим.
Чем меньше СКО, тем ниже вариация в данных, уже спектр прогнозируемых значений и тем проще этим всем управлять и делать А/Б тесты. Это особенно полезно при А/Б тестах. Чтобы понять статистическую значимость результатов теста (а правда стало лучше или это случайность?) как-раз таки используется формула, которая сравнивает СКО двух выборок (А и Б) и оценивает вероятность случайности.
В эти дебри мы сейчас не полезем. Это лучше демонстрировать с конкретными данными.
Уф... ты ещё тут?
Пойдём дальше.
Медиана
Медиана выборки — это значение средней строчки в таблице с данными. Мы сортируем данные по порядку (например, по возрастанию значений) и берём строчку в самой середине.
Например в выборке из 10 строчек, медианой будет значение 5-й строчки, а в выборке из 10 строчек - среднее между 5-й и 6-й (так мы делаем, когда количество записей чётное и выборку нельзя поделить строго пополам).
Медина важна, когда есть статистические выбросы (outliers), то есть значения, сильно выдающиеся за рамки среднего.
Например, у вас может быть 1000 маленьких пользователей, делающих 1 заказ в месяц, и 1 крупняк, который делает 1000 заказов в месяц. Среднее количество заказов на пользователя будет (1000 х 1 + 1 х 1000) / (1000 + 1) = примерно 2 заказа на пользователя. Это не отражает реальной сути вещей, если вы скажете, что пользователи у вас в среднем делают два заказа.
Для таких случаев у нас есть медиана, которая покажет нам, что средний пользователь (а не "пользователи в среднем") делает 1 заказ в месяц.
Процентиль (percentile)
Медиана — это частный случай процентилей. В случае с медианой, мы сортируем данные, отмеряем от них 50% и это значение в серединке (50%) — это 50-й процентиль.
Если нам нужно посчитать 90-й процентиль, мы отмеряем 90% данных от начала. Например, в выборке из 100 значений, 90-е значение будет 90-м процентилем. 95-е — 95м процентилем.
Процентили обычно обозначаются как P90, P95 и т.п. Читается как пи-найнти, пи-найнтифайв.
Как мы их используем?
Чаще всего процентильные метрики используются для операционных показателей, чтобы оценить как сервис работает "для большинства."
Допустим, мы хотим мониторить скорость загрузки страниц для пользователей нашего продукта. В таком показателе могут быть очень сильные статистические выбросы (см. выше) — у пользователя много данных, интернет затупил и т.п. Если посчитаем среднее — оно покажет искаженную картину. Если возьмем медиану — это недостаточно репрезентативно, а что если только у половины всё работает хорошо?
Поэтому мы берем P90, P95 или P99 (в зависимости от ваших стандартов или SLA) и смотрим какое максимальное/минимальное значение метрики для 90%, 95% или 99% пользователей.
У вас могут быть серьёзные различия между значениями в P95 и в P99, потому что в разницу между 95% пользователей и 99% начинают попадать серьезные отклонения от нормы. С ними можно работать отдельно, зная что у большинства (но не абсолютного большинства) всё нормально.