Обновлено:
Как найти вероятность случайных величин
При анализе данных, проведении эксперимента или даже в обычной жизни мы сталкиваемся со случайными исходами. Количество посетителей на сайте за час, рост человека, выпавшее на кубике число – всё это примеры случайных величин. Чтобы принимать решения, нужно уметь оценивать неопределённость, то есть находить вероятность тех или иных событий.
Случайная величина – это числовая характеристика, которая принимает в результате опыта одно из множества возможных значений, причём заранее неизвестно какое именно. Чтобы она стала полезной, её описывают с помощью распределения вероятностей, которое показывает, насколько вероятно каждое значение.
Методы нахождения вероятности кардинально различаются в зависимости от типа случайной величины.
Как работают дискретные случайные величины?
Дискретная случайная величина имеет конечное или счётное множество значений. Её можно перечислить: 1, 2, 3, 4, 5, 6. Классический пример – бросок игрального кубика.
Для таких величин используется функция вероятности (Probability Mass Function, PMF). Она ставит в соответствие каждому возможному значению его вероятность. Самый простой способ её представить – таблица.
| Выпавшее значение (\(x_i\)) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Вероятность (\(\mathrm{P}\_i\)) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
Чтобы найти вероятность того, что случайная величина примет конкретное значение, достаточно посмотреть в таблицу. Например, вероятность того, что выпадет четвёрка, P(X=4), равна 1/6. Сумма всех вероятностей в такой таблице всегда равна 1.
Как найти вероятность для непрерывных случайных величин?
С непрерывными величинами всё сложнее. Они могут принимать любое значение из некоторого интервала. Например, время реакции человека, температура тела или рост. Между 170 см и 171 см находится бесконечное множество значений.
Из-за этого вероятность того, что непрерывная случайная величина примет одно-единственное, точное значение, равна нулю. Например, вероятность того, что рост случайно выбранного человека будет ровно 175,00000… см, практически нулевая.
Поэтому для непрерывных величин ищут вероятность попадания в интервал, например, от 174 см до 176 см. Для этого используется плотность вероятности (Probability Density Function, PDF). Это не сама вероятность, а функция, график которой показывает, в каких областях значения более вероятны. Вероятность попадания в интервал [a, b] – это площадь под кривой плотности на этом отрезке otus.ru.
Калькулятор выше помогает рассчитать такие вероятности для наиболее распространённых распределений, таких как нормальное. Для этого обычно требуется указать параметры распределения (например, среднее значение и стандартное отклонение) и границы интервала.
Что такое функция распределения (CDF) и зачем она нужна?
Как дискретные, так и непрерывные случайные величины описываются функцией распределения (Cumulative Distribution Function, CDF). Она показывает вероятность того, что случайная величина X примет значение, меньшее или равное заданному x: \(F(x) = P(X \le x)\).
Для дискретных величин CDF – это просто сумма вероятностей всех значений, не превышающих x. Для непрерывных – это определённый интеграл от плотности вероятности.
Главная практическая польза CDF в том, что она сильно упрощает расчёт вероятности для интервалов. Вероятность того, что значение непрерывной величины X попадёт в интервал от a до b, вычисляется как разность значений функции распределения в концах интервала:
\(P(a \le X \le b) = F(b) - F(a)\)
Это гораздо проще, чем каждый раз вычислять площадь под кривой PDF вручную.
Таким образом, чтобы найти вероятность случайной величины, нужно сначала определить её тип. Для дискретной – используем PMF и ищем вероятность конкретного значения. Для непрерывной – работаем с интервалами, используя PDF для понимания плотности и CDF для расчёта итоговой вероятности angelgardt.github.io.
Часто задаваемые вопросы
В чём главное отличие дискретной и непрерывной случайной величины?
Дискретная величина имеет счётное количество значений (например, число очков на кубике). Непрерывная может принимать любое значение в пределах интервала (например, рост или время), и её множество значений бесконечно.
Почему вероятность точного значения непрерывной величины равна нулю?
Поскольку непрерывная величина имеет бесконечное число возможных значений, вероятность наступления одного конкретного значения из них стремится к нулю. Имеет смысл говорить только о вероятности попадания в интервал.
Что такое PMF и PDF простыми словами?
PMF (функция вероятности) – это таблица или правило, показывающее вероятность каждого отдельного значения для дискретной величины. PDF (плотность вероятности) – это кривая, которая показывает, насколько вероятны значения в определённой области для непрерывной величины.
Как рассчитать вероятность для интервала значений?
Для непрерывной случайной величины вероятность попадания в интервал [a, b] равна площади под кривой плотности вероятности (PDF) на этом отрезке. На практике её часто находят через функцию распределения (CDF) по формуле P(a ≤ X ≤ b) = F(b) - F(a).
Приведите пример случайной величины из жизни.
Дискретная случайная величина – количество бракованных деталей в партии. Непрерывная случайная величина – вес одного случайно выбранного яблока из ящика.