Основы статистики для веб-аналитика: 15 типов распределения вероятностей
Это — перевод статьи из блога Cloudera. Нам очень понравилось то, как Шон Оуэн с помощью простых примерах объяснил на первый взгляд сложные вещи.
За последние пять лет статистика превратилась в востребованную и набирающую популярность науку. Чтобы при упоминании ее методов не испытывать излишней неловкости, необходимо пройти интенсивный курс по статистике. Правда, далеко не у каждого найдется для этого достаточно времени и выдержки. Если вы хотите использовать статистику в веб-аналитике, вам достаточно разобраться в общих типах распределения вероятностей.
Распределения вероятностей — это такие же основы статистики, как структуры данных в информатике. Существуют сотни типов распределений вероятностей. Однако на практике используются только около 15 из них. Что такое распределение вероятностей?
Ситуации, за которыми скрывается данное явление, происходят в нашей жизни постоянно: катятся ли по столу игральные кости, идет ли дождь, приезжают ли автобусы. Все эти процессы в конечном итоге имеют определенные результаты: на игральных костях оказались числа 3 и 4, в виде дождя сегодня выпало около 13 мм осадков, автобус приехал через 3 минуты. До этого момента мы могли лишь предполагать о том, какими будут результаты. Распределение вероятностей описывает то, каким, по нашему мнению, может оказаться каждый из результатов. Форм может быть много, но размер всегда один: вероятности всегда сводятся к 1.
Так, подбрасывание монеты вверх приведет к двум результатам: она упадет либо орлом, либо решкой (допустим, она не сможет упасть на ребро). До момента подбрасывания монеты есть 1 шанс из 2, или вероятность в 0.5, что выпадет орел. Тоже самое верно и для решки. Это и есть распределение вероятностей, состоящих из двух результатов. Если вы в полной мере понимаете, о чем идет речь в данном примере с монетой, то вы уже овладели распределением Бернулли.
В этой статье мы расскажем о:
- Распределении Бернулли и равномерном распределении
- Биномиальном и гипергеометрическом распределениях
- Распределении Пуассона
- Геометрическом и отрицательном биномиальном распределениях
- Экспоненциальном распределении и распределении Вейбулла
- Нормальном, логарифмически-нормальном, Стьюдента и хи-квадрат распределениях
- Гамма и бета распределениях
Эта карта — ваш справочник по определению типов распределений и отношений между ними.
Каждое из распределений проиллюстрировано соответствующим примером функции плотности распределения вероятностей. В этой статье рассматриваются только те распределения результатов, которые выражаются простыми числами. На каждой клеточке горизонтальной оси отмечено возможное число результатов. Вертикальная ось описывает вероятность результатов.
Некоторые распределения являются дискретными, результаты обозначаются целыми числами, такими, как 0 или 5. На графике они показаны редкими линиями, по одной для каждого результата. Высота линии соответствует вероятности этого результата. Некоторые из линий более плотные. Они отображают результаты, идущие под любым цифровым значением — 1.32 или 0.005. Области под кривыми — это и есть вероятности. Сумма высот линий и областей под кривыми всегда равна 1.
Распределение Бернулли уже упоминалось выше, когда приводился пример с двумя дискретными результатами — орлом и решкой. Представьте его в числах 0 и 1: решку обозначаем 0, а орла — 1 (или наоборот). Оба результата обладают одинаковой вероятностью, что и показано на графике. Плотность распределения Бернулли характеризуется двумя линиями равной высоты.
Однако распределение Бернулли также может представлять исходы событий с неравной вероятностью, что, к примеру, происходит при нечестном укладывании монетки при подбрасывании. В этом случае вероятность того, что выпадет орел не 0.5, а некая другая величина p, а вероятность решки составляет 1- p.
Данная зацепка позволяет сразу выделить целый ряд распределений с равновероятными исходами: дискретное равномерное распределение отличает плоская функция его плотности. Теперь представьте, что брошены игральные кости (честно). Вероятность, что выпадет или 1, или 6 одинакова. Ее можно определить любым количеством исходов n или даже как непрерывное распределение.
Биномиальное распределение можно определить как сумму результатов действий, рассматриваемых в рамках распределения Бернулли. Подбросьте монету вверх 20 раз: сколько раз она упадет орлом? Подсчет количества требуемых результатов и будет биномиальным распределением.
Здесь параметрами являются величина n — количество испытаний и p — вероятность успеха (в данном случае орла, или 1). Каждый переворот монеты в воздухе — это результат, имеющий отношение к распределению Бернулли, или испытание. Здесь же можно пойти по пути биномиального распределения и подсчитать количество успешных результатов таких действий, как все те же перевороты монеты в воздухе, где каждый из переворотов независим и имеет одинаковую вероятность успеха.
Или, представьте лотерейный барабан, в котором находится одинаковое количество белых и черных шариков. Закройте глаза и вытащите шарик. Посмотрите, черный он или нет, а затем положите его обратно. Повторите все сначала. Сколько раз вы вытянули черный шарик? Данная величина также относится к биномиальному распределению.
При гипергеометрическом распределении величина одна и та же, разница будет состоять лишь в том, что шарики не будут складываться обратно в лотерейный барабан. Вероятность успеха здесь отличается от биномиального типа. А все потому, что шариков в барабане с каждым испытанием становится все меньше. Хотя, если количество шариков большое, а число испытаний гораздо меньше, эти распределения будут одинаковы, так как шанс успешного исхода с каждым испытанием почти не меняется.
Как быть в ситуации, когда нужно посчитать количество звонков, поступающих каждую минуту на телефоны горячей линии службы поддержки? На первый взгляд здесь мы имеем дело с биномиальным распределением, если рассматривать каждую секунду, как действие по Бернулли — отсутствие звонка (0), звонок (1). Но на деле, если, к примеру, в каком-то городском районе отключат свет, на телефон энергетической компании будет поступать по 2, а то и по несколько сотен звонков ежесекундно. Можно разбить минуту на 60 000 миллисекунд и считать звонки, поступающие каждую миллисекунду. Но это не поможет. Все равно звонков будет больше, и вероятность успеха в этом случае будет меньше 1. То есть, технически, это не распределение Бернулли. Давайте рассуждать логически. Пусть n стремится к бесконечности, а p к нулю, чтобы величина np оставалась одной и той же. Это как нашинковать время на бесконечно малые промежутки, в которые вероятность звонка представляется бесконечно малой. Предельный результат — это распределение Пуассона.
Как и в случае с биномиальным распределением, Пуассон — это распределение, моделирующее величину, которая отображает количество раз, выпадающих на какое-то событие. В нем используются не только такие параметры, как p (вероятность успеха) и n (одинаковые независимые испытания), но и средний показатель λ, который по данной аналогии представляет собой постоянную величину np. Распределение Пуассона — это то, о чем вы должны подумать при попытке подсчитать количество событий, произошедших за определенное время.
Когда данные поступают на роутеры, или покупатели приходят в магазин, или образуетсячто-то, похожее на очередь, у вас в голове должно возникать слово Пуассон.
Простые испытания Бернулли приводят к еще одному распределению. Сколько раз монета повернется решкой прежде, чем впервые выпадет орел? Количество выпавших до этого решек и составит геометрическое распределение. Здесь точно так же, как и в распределении Бернулли, задействован параметр p, использующийся для обозначения вероятности успешного завершения действия. А вот числа испытаний (или переворотов, как в случае с монетой) n нет, потому что количество неудачных испытаний само по себе является результатом.
Если в биномиальном распределении основной вопрос — это сколько испытаний были успешными?, то в геометрическом он будет звучать так: сколько было неудачных испытаний, пока не произошло успешное?.
Отрицательное биномиальное распределение представляет собой простую генерализацию. Это количество неудачных испытаний, произошедших до наступления r количества успехов, а не всего одного успеха. То есть, появляется еще один параметр — r. Иногда можно описать данное распределение немного в другом ключе: это число успехов, случившихся до наступления r количества неудач.
В качестве примера вернемся к звонкам в службу поддержки клиентов: сколько времени пройдет до звонка следующего клиента? Распределение времени ожидания можно было бы отнести к геометрическому типу, так как каждая секунда без звонка может означать неудачу до того момента, когда, наконец, позвонит клиент. Число неудач будет сопоставимо с количеством секунд, в течение которых никто не позвонил, а это, другими словами, почти время ожидания следующего звонка, но, все-таки, не совсем так. Эти секунды времени будут всегда выражаться в целых числах, но в реальности из подсчета будут выпадать некоторые отрезки времени, ведь звонки будут поступать не строго по истечению одной секунды за другой, но и в доли секунд.
И опять, задайте ограничение для геометрического распределения: пусть промежутки времени будут бесконечно малыми и будут стремиться к нулю. Вот тогда это сработает. Вы получите экспоненциальное распределение, которое точно будет описывать распределение времени до момента поступления телефонного звонка. Это непрерывное распределение, первое, с которым мы сталкиваемся в статье, потому что результат, выраженный во времени, не нужно обозначать в целых секундах. Так же, как и в распределении Пуассона, здесь используется параметр λ.
По своей сути распределение Пуассона перекликается с биномиально-геометрическими отношениями. Точно так же, пуассоновский вопрос сколько событий произошло за определенное время? соотносится с экспоненциальным вопросом сколько времени осталось до наступления события?. События, количество которых за определенное время моделируется по распределению Пуассона, и время между событиями, которое моделируется по экспоненциальному распределению, подчиняются одному и тому же параметру λ. Такое соответствие (и одновременно различие) между двумя типами распределений имеет существенное значение.
Нужно вспомнить об экспоненциальном распределении, если кажется, что речь идет о времени до наступления события, которое может оказаться на самом деле временем до не наступления события (до отказа). Чувствовать эту разницу чрезвычайно важно. По этой причине имеются даже более общие типы распределений, которые описывают наработку до отказа. Например, распределение Вейбулла. Экспоненциальное распределение больше подходит к той ситуации, когда, например, количество износа или отказа техники является постоянной величиной. Распределение Вейбулла моделирует увеличение (или уменьшение) величины отказов в течение какого-то времени. Экспоненциальное распределение — это просто частный случай.
Наиболее важным среди распределений остается нормальное распределение, или распределение Гаусса. Его сразу можно узнать по кривой, напоминающей колокол. Как и e, это чрезвычайно интересная, независимая величина, которая появляется из кажущихся простыми источников. Возьмите целый набор параметров из какого-нибудь одного распределения (любого типа) и сложите их вместе. Распределение их сумм имеет нормальное распределение. Чем больше в такой сумме будет слагаемых, тем ближе эта сумма будет к нормальному распределению (важное пояснение, распределение должно быть: а) удобным для анализа, б) независимым, в) должно стремиться к нормальному распределению). Это утверждение верно во всех случаях, не важно какое из распределений имеется в виду.
Теперь мы подошли вплотную к центральной предельной теореме. Важно знать, что это такое, и как это называется, иначе в разговоре вас тут же собьют с толку.
Она соотносится со всеми распределениями. Но, если точнее, то данная теорема имеет отношение к распределениям сумм независимых случайных величин. Сумма испытаний Бернулли имеет биномиальное распределение. Так как число испытаний возрастает, биномиальное распределение становится ближе к нормальному распределению. Это верно и в отношении гипергеометрического распределения. Распределение Пуассона, как крайнее проявление биномиального, также приближается к нормальному распределению при возрастании параметра.
Результат действия, которое попадает под логнормальное распределение, описывается величинами, распределенными логарифмически-нормально. Если суммы величин нормально распределены, то помните о том, что результаты действий с величинами распределены логарифмически-нормально.
Распределение Стьюдента основывается на t-критерии Стьюдента, который изучают многие специалисты, не связанные со статистикой. Оно используется в обосновании среднего значения нормального распределения и так же приближается к нормальному распределению по мере увеличения параметра. Отличительная черта t-распределения заключается в его хвостах — они толще, чем у нормального распределения.
И, наконец, распределение хи-квадрат, представляющее собой распределение суммы квадратов нормально распределенных величин. Оно построено вокруг критерия согласия хи-квадрат, которое, в свою очередь, базируется на сумме квадратов разностей, которые, как предполагается, должны быть нормально распределены.
Гамма распределение — не что иное, как генерализация и экспоненциального, и хи-квадратного распределения. Со стороны экспоненциального распределения оно используется в качестве усложненной модели периодов ожидания. Например, можно говорить о гамма распределении при моделировании времени до момента наступления следующих n-событий.
Ни в коем случае не развивайте эту тему дальше! Однако если вы уже в это влипли, то постарайтесь медленно перевести разговор на бета-распределение, потому что бета априори сопряжена практически с любым из распределений, которые упоминаются в этой статье. А вообще, все эти заморочки как раз и созданы специально для того, чтобы статистикам было чем заниматься. Между делом выскажите эту мысль и тут же шагайте к выходу.Там, где начинается мудрость
Распределения вероятностей — это тема, которую невозможно изучить вдоль и поперек. Если ваш интерес еще не испарился, советуем вам ознакомиться с очень подробной картой всех одномерных распределений. Мы надеемся, что это руководство поможет вам сохранить лицо в суровом технологическом мире и не вызвать шквал критики со стороны продвинутых в вопросах статистики коллег. Или же, прочитав и усвоив материал, изложенный в этой статье, вы, по крайней мере, научитесь с большой степенью вероятности выбирать для себя наименее нудные вечеринки.
Читайте другие статьи в нашем блоге:
7 неправильных улучшений на сайте. Как извлечь пользу из ошибок