Блог Джафара Алиева

Архив

Домашняя страница :: Другие статьи :: Аналитика


Дата создания:

Ошибка репрезентативности

стандартное отклонение  

 

Вы, наверное, встречали и другое название этого понятия. Напомним, что стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Они относятся к выборочной совокупности и позволяют определить достоверность результатов исследования над выборкой. Само имя говорит о том, насколько репрезентабельно выборка отображает генеральную совокупность. Другими словами, стандартная ошибка показывает, насколько результаты, полученные при выборочном наблюдении “далеко ушли” от результатов, которые получили бы, исследовав генеральную совокупность.

Выделяют два вида таких ошибок:

  • Стандартная ошибка среднего (standard error of the mean), она же ошибка репрезентативности средней арифметической
  • Стандартная ошибка доли (standard error of a portion), она же ошибка репрезентативности относительной величины

Стандартная ошибка среднего

Эта ошибка вычисляется путем деления стандартного отклонения выборки на квадратный корень от количества элементов выборки.

$m_M = \dfrac{s}{\sqrt{n}}$

где $s$ – стандартное отклонение, $n$ – количество элементов. Из формулы видно, что ошибка репрезентативности средней арифметической (или стандартная ошибка среднего) обратно пропорционально квадратному корню от количества элементов выборки. Чем больше элементов в выборке, тем меньше ошибка.

Стандартная ошибка доли

Теперь посмотрим, как можно вычислить стандартную ошибку для относительной величины. На практике часто приходится иметь дело с дихотомическими данными, когда переменные принимают два значения. Это может быть пол (мужской и женский), если не учесть меньшинства, состояние устройства (рабочее и нерабочее), голоса избирателей (за и против), и т.д. Рассмотрим вариант определения ошибки для выборки из таких значений.

Допустим у нас большая урна с шарами двух цветов. Количество всех шаров не сосчитать. Допустим все черные и красные шары равномерно распределены в урне. Тогда вытаскиваем $n$ шаров и считаем количество красных и черных шаров. На основе этих данных будем строить догадки относительно всех шаров в урне.

Возьмем количество красных шаров равным $k$, тогда количество черных шаров будет $n-k$. Так как мы сосчитали красные шары, обозначим их числом $1$, а черные, числом $0$. Тогда среднее арифметическое вычисляется так:

$\bar{x} = \dfrac{k \cdot 1 + (n-k)\cdot 0}{n} = \dfrac{k}{n}$

У нас имеется $k$ штук единичек и $n-k$ штук нулей.

$x_1=x_2=…=x_k=1, \\ x_{k+1}=x_{k+2}=…=x_n=0$

Значит, дисперсия имеет следующий вид:

$$\sum_{i=1}^{n}(x_i-\bar{x})^2 = k(1-\bar{x})^2+(n-k)(0-\bar{x})^2=\\[15pt]
=k\left(1-\dfrac{k}{n}\right)^2+(n-k)\left(0-\dfrac{k}{n}\right)^2=\\[15pt]
=k\left(1-\dfrac{2k}{n}+\dfrac{k^2}{n^2}\right)+(n-k)\dfrac{k^2}{n^2}=\\[15pt]
=k-\dfrac{2k^2}{n}+\dfrac{k^3}{n^2}+\dfrac{k^2}{n}-\dfrac{k^3}{n^2}=\\[15pt]
= k-\dfrac{k^2}{n}=k\left(1-\dfrac{k}{n}\right)$$

С другой стороны $\dfrac{k}{n}=\hat{p}$, то есть вероятность попадания красных шаров в выборке. Тогда

$s^2=\dfrac{k\left(1-\dfrac{k}{n}\right)}{n}=\dfrac{n \cdot \dfrac{k}{n}\left(1-\dfrac{k}{n}\right)}{n} = \hat{p}(1-\hat{p})$

Значит, функция ошибки будет иметь следующий вид:

$m_P=\sqrt{\dfrac{s^2}{n}}=\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$

Эта формула называется стандартной ошибкой доли.

Вы, наверное, уже заметили, несмотря на то, что мы имеем дело с выборкой, при определении дисперсии сумму делим на $n$, а не $n-1$. В случае большой выборки, если количество элементов больше $30$, обычно делят на $n$. А если использовать малую выборку, где количество элементов меньше 30, то при нахождении дисперсии и стандартных ошибок вместо $n$ пишем $n-1$. Значение $n-1$ называется количеством степеней свободы (degrees of freedom).

$m_M=\dfrac{s}{\sqrt{n-1}}, \ m_P=\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n-1}}$

Читайте также

Переменные потока и запасы
Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Показатели вариации
Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

Типы выборки
Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.

Скользящее среднее значение
Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка
Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Нулевая гипотеза
Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.

Что такое тренд?
Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Среднее значение, медиана и мода
Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.