Блог Джафара Алиева

Архив

Домашняя страница :: Другие статьи :: Аналитика


Дата создания:

Нормальное распределение

функция распределения  стандартное отклонение  

 

Имеется множество различных функций распределения. Но в статистике в качестве непрерывного распределения больше всего используется нормальное распределение (normal distribution). Его также называют распределением Гаусса. Говоря нормальное распределение, всегда имеется в виду плотность вероятностей в функции нормального распределения. Его график по своей форме напоминает колокол.

Плотность вероятностей

Имеется бесконечное число нормальных распределений, которые отличаются средним значением ($\mu$) и показателем вариации ($\sigma$). Но все они имеют определенные общие характеристики:

  • они симметричны;
  • у всех есть единственное более общее значение;
  • все простираются от $-\infty$ до $+\infty$;
  • все значения функции находятся под кривой $1$;
  • среднее значение, медиана и мода у всех совпадает.

Функция плотности вероятностей в этом распределении имеет следующий вид:
$$f(x)=\dfrac{1}{\sigma \sqrt{2\pi}} e ^{-\dfrac{(x-\mu)^2}{2\sigma ^2}}$$
Эмпирический метод показывает, что в нормальном распределении все значения распределены следующим образом:

  • Около $68\%$ всех значений находятся на расстоянии стандартного отклонения от среднего значения $[\mu-\sigma, \mu +\sigma]$.
  • Около $95\%$ всех значений находятся на расстоянии 2-х стандартных отклонений от среднего значения $[\mu-2\sigma, \mu +2\sigma]$.
  • Около $99\%$ всех значений находятся на расстоянии 3-х стандартных отклонений от среднего значения $[\mu-3\sigma, \mu +3\sigma]$.

Нормальное распределение

Нормальное распределение со средним значением $\mu=0$ и среднеквадратичным отклонением $\sigma=1$ называется стандартным нормальным распределением (standard normal distribution) или $Z$-распределением. Любое нормальное распределение можно привести в вид стандартного нормального распределения.

Чтобы сравнивать значения в различных единицах измерения, их нужно привести в единое пространство.  Поэтому “сырые” значения, в единицах измерения километр, метр или килограмм переводят в $Z$-оценки ($Z$-scores). Эти значения выражаются в единицах стандартного отклонения. Преобразование всех значений в $Z$-оценки эквивалентно преобразованию нормального распределения в стандартное нормальное распределение. Поэтому $Z$-оценки иногда называют нормализованными оценками (normalized scores), а сам процесс нормализацией (normalizing).

Перевод начальных значений в $Z$-оценки осуществляется следующим образом:
$$Z=\dfrac{x-\mu}{\sigma}$$
Если $\mu=100$, $\sigma=5$, то для значений $105$, $110$ и $85$ из стандартного распределения $x \sim N(100,5)$ (если обозначить распределение в виде $x \sim N(\mu, \sigma)$) эти значения имеют следующий вид:

$\dfrac{105-100}{5}=1, \ \dfrac{85-100}{5}=-3, \ \dfrac{110-100}{5}=2$

Так как $68\%$ всех значений находятся в промежутке $[95, 105]$, только менее $16\%$ значений будут больше $105$. Потому, что $32\%$ значений остаются за пределами расстояния $\sigma$ от среднего значения по обе стороны, из них менее $16\%$ больше, чем значение $105$. А в случае со значением $110$, только $2,5\%$ значений генеральной совокупности имеют большее значение. Для $85$, менее $0,5\%$ имеют меньшее значение. Значит, значения $110$ и $85$ можно считать “редкими”.

Преимущество $Z$-оценок в том, что они позволяют сравнивать совокупности с различными средними значениями и стандартным отклонением. Например, мы сразу не сможем сказать, что значение $35$ в совокупности $x \sim N(50,10)$ является более “редким”, чем значение $95$ в совокупности $x \sim N(100,5)$. Поэтому вычисляем $Z$-оценку для этих значений.

$\dfrac{95-100}{5}=-1, \ \dfrac{35-50}{10}=-1,5$

Отсюда видно, что значение $-1,5$ находится дальше от $0$, чем значение $-1$. Так как $0$ является средним значением стандартного нормального распределения, значит, значение $35$ во второй совокупности имеет меньшую вероятность (встречается реже), чем значение $95$ в первой совокупности.

Читайте также

Биномиальное распределение
Биномиальное распределение является одним из видов дисретного распределения, т.е. является распределением вероятностей случайной величины из ограниченного количества значений. Биномиальное распределение применяется к дихотомическим данным.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.