Навигатор


Архив

201139
201230
201312
20151
201633
201755
201865
201955
20234

Дата создания:

Абсолютные показатели вариации


вариация дисперсия стандартное отклонение

 

Про размах и межквартильный размах уже говорили. Теперь обсудим другие три абсолютных показателя вариации. Это среднее линейное отклонение, дисперсия и стандартное отклонение. Дисперсия и стандартное отклонение для генеральной совокупности и для выборки по-разному вычисляются. Давайте обо всем этом поговорим подробнее. Начнем со среднего линейного отклонения.

Среднее линейное отклонение

Для вычисления среднего линейного отклонения (mean absolute deviation) мы сначала находим расстояние каждого элемента совокупности от среднего значения (центральной тенденции). В качестве среднего значения можно брать среднее арифметическое, медиану или моду. Здесь мы берем среднее арифметическое. После этого находим среднее арифметическое этих расстояний. Опишем это в виде алгоритма:

  1. Сначала находим среднее арифметическое значение $$\mu = \dfrac{\sum_{i=1}^{N}x_i}{N}$$
  2. Затем отнимаем это значение от каждого члена совокупности и находим абсолютные значения этих разностей $$|x_i-\mu|$$
  3. Складываем полученные значения и делим на количество элементов

$$\bar{d} = \dfrac{1}{N} \sum_{i=1}^{N} |x_i-\mu|$$

где $N$ – количество элементов совокупности, $x_i$ – сами элементы. Если бы мы не находили абсолютную величину сумма всегда была бы равна нулю. Покажем это наглядно.

$$\sum_{i=1}^{N}(x_i-\mu) = x_1-\mu+x_2-\mu+ … +x_N-\mu =\\[15pt]
= \sum_{i=1}^{N}x_i-N\mu=\sum_{i=1}^{N}x_i-N \dfrac{\sum_{i=1}^{N}x_i}{N}=\\[15pt]
= \sum_{i=1}^{N}x_i-\sum_{i=1}^{N}x_i=0$$

Поэтому всегда берем расстояние вместо простой разности. А расстояние всегда положительно.  В качестве примера рассмотрим следующее множество.

$$(1, 5, 3, 17, 13, 9)$$

Среднее арифметическое этого множества равно:

$$\mu = \dfrac{1+5+3+17+13+9}{6} =\dfrac{48}{6} = 8$$

Теперь найдем все расстояния:

$$|1-8|=7, |5-8|=3, |3-8|=5,\\ |17-8|=9, |13-8|=5, |9-8|=1$$

Наконец, находим среднее линейное отклонение:

$$\bar{d} = \dfrac{7+3+5+9+5+1}{6} = \dfrac{30}{6}=5$$

Иногда для нахождения центральной тенденции и для среднего значения расстояния элементов от этого центра берется медиана. То есть в обеих случаях вместо среднего арифметического, берется медиана. На английском языке в зависимости от выбора функции центральной тенденции и среднего значения расстояния элементов от этого центра, эти линейные отклонения по-разному называются. В случае арифметического среднего значения это называется average absolute deviation, а для медианы, это называется median absolute deviation.

Дисперсия

Дисперсия (на английском variance) генеральной совокупности обозначается знаком $\sigma^2$, а для выборки этот знак $s^2$ и вычисление этих двух значений хоть и незначительно, но отличается. Сначала рассмотрим вычисление этого показателя для генеральной совокупности.

  1. Находим среднее арифметическое среди элементов
    $$\mu = \dfrac{\sum_{i=1}^{N}x_i}{N}$$
    Здесь $N$ – количество элементов генеральной совокупности, $x_i$ – сами элементы.
  2. Находим отклонение каждого члена от среднего значения. Для этого берем квадрат расстояния между членом совокупности и средним значением. Так как квадрат всегда положительный, уже нет необходимости брать абсолютную величину разности.
    $$(x_i-\mu)^2$$
  3. Суммируем эти значения и делим на количество элементов

$$\sigma^2 = \dfrac{1}{N} \sum_{i=1}^{N}(x_i-\mu)^2$$

Эту формулу можно преобразовать в следующий вид:

$$\sigma^2 = \dfrac{1}{N} \sum_{i=1}^{N}(x_i-\mu)^2 = \dfrac{1}{N} \sum_{i=1}^{N}(x_i^2-2\mu x_i+\mu^2)=\\[15pt]
= \dfrac{1}{N} \left(\sum_{i=1}^{N} x_i^2-2\mu \sum_{i=1}^{N}x_i+N\mu^2 \right)=\\[15pt]
= \dfrac{1}{N}\left(\sum_{i=1}^{N} x_i^2-2\mu N \dfrac{\sum_{i=1}^{N}x_i}{N}+N\mu^2 \right)=\\[15pt]
=\dfrac{1}{N}\left(\sum_{i=1}^{N} x_i^2 - 2N \mu^2+N\mu^2 \right) = \dfrac{1}{N}\left(\sum_{i=1}^{N} x_i^2 - N\mu^2 \right)$$

Если вместо $\mu$ подставить значение, то можно записать так:

$$\sigma^2 =\dfrac{1}{N}\left(\sum_{i=1}^{N} x_i^2 - \dfrac{(\sum_{i=1}^{N} x_i)^2}{N}\right)$$

Таким же образом вычисляется дисперсия выборочной совокупности. Только вместо $N$ делим на $n-1$, где $n$ количество элементов выборки. Среднее значение выборки обозначается знаком $\bar{x}$.

$s^2 = \dfrac{1}{n-1} \sum \limits_{i=1}^{n}(x_i-\bar{x})^2$ или $s^2 = \dfrac{1}{n-1}\left(\sum \limits_{i=1}^{n} x_i^2 - \dfrac{(\sum_{i=1}^{n} x_i)^2}{n}\right)$

Давайте вычислим эти значения для нашего множества из предыдущего примера. Сначала возьмем его в качестве генеральной совокупности, затем в качестве выборки.

$$\sigma^2=\dfrac{7^2+3^2+5^2+9^2+5^2+1^2}{6}=\\[15pt]
=\dfrac{49+9+25+81+25+1}{6}=\dfrac{190}{6}\approx 31,7\\[15pt]
s^2 =\dfrac{7^2+3^2+5^2+9^2+5^2+1^2}{5}=\dfrac{190}{5}=38$$

Как видно, дисперсия выборки всегда будет больше дисперсии генеральной совокупности. Это объясняется тем, что работая с выборочной совокупностью, у нас отклонений будет больше, чем во время работы со всей генеральной совокупностью.

Так как во время вычисления используем квадраты, минимальное значение дисперсии равно нулю. Ноль означает, что все члены совокупности равны между собой.

Стандартное отклонение

Стандартное (среднеквадратичное) отклонение является следующим показателем вариации. Как вы уже заметили, во избежание получения нуля во время вычисления дисперсии мы возвели все разницы в квадрат и сложили. Этим мы получили отклонение в квадратах. Чтобы вернуться к начальной единице измерения, используют квадратный корень от значения дисперсии. Это и называется средним квадратичным или стандартным отклонением (standard deviation).

Так как дисперсия для генеральной совокупности и для выборки вычисляется по-разному, а среднеквадратичное отклонение получается непосредственно от дисперсии, оно тоже для этих совокупностей обозначается по-разному.

$$\sigma = \sqrt{\sigma^2} = \sqrt{\dfrac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2};\\[15pt]
s=\sqrt{s^2}=\sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}$$

Если вернуться к нашему примеру, то эти показатели будут равны следующим значениям:

$$\sigma=\sqrt{31,7} \approx 5,63; \ s=\sqrt{38} \approx 6,16 $$

Читайте также

Относительные показатели вариации

Стандартное отклонение, размах и среднее линейное отклонение дают абсолютные значения. Чтобы наши значения не зависели от масштаба, вводится понятие относительного показателя. То есть мы делим абсолютные значения на средние значения совокупности, чтобы избавится от единицы измерения.

Показатели вариации

Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.