Как найти вероятность случайных величин
При анализе данных, проведении эксперимента или даже в обычной жизни мы сталкиваемся со случайными исходами. Количество посетителей на сайте за час, рост человека, выпавшее на кубике число – всё это примеры случайных величин. Чтобы принимать решения, нужно уметь оценивать неопределённость, то есть находить вероятность тех или иных событий.
Случайная величина – это числовая характеристика, которая принимает в результате опыта одно из множества возможных значений, причём заранее неизвестно какое именно. Чтобы она стала полезной, её описывают с помощью распределения вероятностей, которое показывает, насколько вероятно каждое значение.
Методы нахождения вероятности кардинально различаются в зависимости от типа случайной величины.
Как работают дискретные случайные величины?
Дискретная случайная величина имеет конечное или счётное множество значений. Её можно перечислить: 1, 2, 3, 4, 5, 6. Классический пример – бросок игрального кубика.
Для таких величин используется функция вероятности (Probability Mass Function, PMF). Она ставит в соответствие каждому возможному значению его вероятность. Самый простой способ её представить – таблица.
| Выпавшее значение (\(x_i\)) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Вероятность (\(\mathrm{P}\_i\)) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
Чтобы найти вероятность того, что случайная величина примет конкретное значение, достаточно посмотреть в таблицу. Например, вероятность того, что выпадет четвёрка, P(X=4), равна 1/6. Сумма всех вероятностей в такой таблице всегда равна 1.
Как найти вероятность для непрерывных случайных величин?
С непрерывными величинами всё сложнее. Они могут принимать любое значение из некоторого интервала. Например, время реакции человека, температура тела или рост. Между 170 см и 171 см находится бесконечное множество значений.
Из-за этого вероятность того, что непрерывная случайная величина примет одно-единственное, точное значение, равна нулю. Например, вероятность того, что рост случайно выбранного человека будет ровно 175,00000… см, практически нулевая.
Поэтому для непрерывных величин ищут вероятность попадания в интервал, например, от 174 см до 176 см. Для этого используется плотность вероятности (Probability Density Function, PDF). Это не сама вероятность, а функция, график которой показывает, в каких областях значения более вероятны. Вероятность попадания в интервал [a, b] – это площадь под кривой плотности на этом отрезке otus.ru.
Калькулятор выше помогает рассчитать такие вероятности для наиболее распространённых распределений, таких как нормальное. Для этого обычно требуется указать параметры распределения (например, среднее значение и стандартное отклонение) и границы интервала.
Что такое функция распределения (CDF) и зачем она нужна?
Как дискретные, так и непрерывные случайные величины описываются функцией распределения (Cumulative Distribution Function, CDF). Она показывает вероятность того, что случайная величина X примет значение, меньшее или равное заданному x: \(F(x) = P(X \le x)\).
Для дискретных величин CDF – это просто сумма вероятностей всех значений, не превышающих x. Для непрерывных – это определённый интеграл от плотности вероятности.
Главная практическая польза CDF в том, что она сильно упрощает расчёт вероятности для интервалов. Вероятность того, что значение непрерывной величины X попадёт в интервал от a до b, вычисляется как разность значений функции распределения в концах интервала:
\(P(a \le X \le b) = F(b) - F(a)\)
Это гораздо проще, чем каждый раз вычислять площадь под кривой PDF вручную.
Таким образом, чтобы найти вероятность случайной величины, нужно сначала определить её тип. Для дискретной – используем PMF и ищем вероятность конкретного значения. Для непрерывной – работаем с интервалами, используя PDF для понимания плотности и CDF для расчёта итоговой вероятности angelgardt.github.io.