Блог Джафара Алиева

Архив

Домашняя страница :: Другие статьи :: Аналитика


Дата создания:

Нормальное распределение

функция распределения  стандартное отклонение  

 

Имеется множество различных функций распределения. Но в статистике в качестве непрерывного распределения больше всего используется нормальное распределение (normal distribution). Его также называют распределением Гаусса. Говоря нормальное распределение, всегда имеется в виду плотность вероятностей в функции нормального распределения. Его график по своей форме напоминает колокол.

Плотность вероятностей

Имеется бесконечное число нормальных распределений, которые отличаются средним значением ($\mu$) и показателем вариации ($\sigma$). Но все они имеют определенные общие характеристики:

  • они симметричны;
  • у всех есть единственное более общее значение;
  • все простираются от $-\infty$ до $+\infty$;
  • все значения функции находятся под кривой $1$;
  • среднее значение, медиана и мода у всех совпадает.

Функция плотности вероятностей в этом распределении имеет следующий вид:
$$f(x)=\dfrac{1}{\sigma \sqrt{2\pi}} e ^{-\dfrac{(x-\mu)^2}{2\sigma ^2}}$$
Эмпирический метод показывает, что в нормальном распределении все значения распределены следующим образом:

  • Около $68\%$ всех значений находятся на расстоянии стандартного отклонения от среднего значения $[\mu-\sigma, \mu +\sigma]$.
  • Около $95\%$ всех значений находятся на расстоянии 2-х стандартных отклонений от среднего значения $[\mu-2\sigma, \mu +2\sigma]$.
  • Около $99\%$ всех значений находятся на расстоянии 3-х стандартных отклонений от среднего значения $[\mu-3\sigma, \mu +3\sigma]$.

Нормальное распределение

Нормальное распределение со средним значением $\mu=0$ и среднеквадратичным отклонением $\sigma=1$ называется стандартным нормальным распределением (standard normal distribution) или $Z$-распределением. Любое нормальное распределение можно привести в вид стандартного нормального распределения.

Чтобы сравнивать значения в различных единицах измерения, их нужно привести в единое пространство.  Поэтому “сырые” значения, в единицах измерения километр, метр или килограмм переводят в $Z$-оценки ($Z$-scores). Эти значения выражаются в единицах стандартного отклонения. Преобразование всех значений в $Z$-оценки эквивалентно преобразованию нормального распределения в стандартное нормальное распределение. Поэтому $Z$-оценки иногда называют нормализованными оценками (normalized scores), а сам процесс нормализацией (normalizing).

Перевод начальных значений в $Z$-оценки осуществляется следующим образом:
$$Z=\dfrac{x-\mu}{\sigma}$$
Если $\mu=100$, $\sigma=5$, то для значений $105$, $110$ и $85$ из стандартного распределения $x \sim N(100,5)$ (если обозначить распределение в виде $x \sim N(\mu, \sigma)$) эти значения имеют следующий вид:

$\dfrac{105-100}{5}=1, \ \dfrac{85-100}{5}=-3, \ \dfrac{110-100}{5}=2$

Так как $68\%$ всех значений находятся в промежутке $[95, 105]$, только менее $16\%$ значений будут больше $105$. Потому, что $32\%$ значений остаются за пределами расстояния $\sigma$ от среднего значения по обе стороны, из них менее $16\%$ больше, чем значение $105$. А в случае со значением $110$, только $2,5\%$ значений генеральной совокупности имеют большее значение. Для $85$, менее $0,5\%$ имеют меньшее значение. Значит, значения $110$ и $85$ можно считать “редкими”.

Преимущество $Z$-оценок в том, что они позволяют сравнивать совокупности с различными средними значениями и стандартным отклонением. Например, мы сразу не сможем сказать, что значение $35$ в совокупности $x \sim N(50,10)$ является более “редким”, чем значение $95$ в совокупности $x \sim N(100,5)$. Поэтому вычисляем $Z$-оценку для этих значений.

$\dfrac{95-100}{5}=-1, \ \dfrac{35-50}{10}=-1,5$

Отсюда видно, что значение $-1,5$ находится дальше от $0$, чем значение $-1$. Так как $0$ является средним значением стандартного нормального распределения, значит, значение $35$ во второй совокупности имеет меньшую вероятность (встречается реже), чем значение $95$ в первой совокупности.

Читайте также

Биномиальное распределение
Биномиальное распределение является одним из видов дисретного распределения, т.е. является распределением вероятностей случайной величины из ограниченного количества значений. Биномиальное распределение применяется к дихотомическим данным.

Распределение Стьюдента
Представьте, что имея малое количество элементов выборки нужно сделать определенные выводы относительно генеральной совокупности. Распределение Стьюдента позволяет найти промежуток, где с большой вероятностью находится среднее значение генеральной совокупности, зная среднее значение небольшой выборки.

Центральная предельная теорема
Центральная предельная теорема гласит, что вне зависимости от распределения элементов генеральной совокупности, распределение средних значений выборок стремится к нормальному распределению с увеличением числа элементов этих выборок.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.