Блог Джафара Алиева

Архив

Домашняя страница :: Другие статьи :: Аналитика


Дата создания:

Показатели вариации

вариация  

 

Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion, variability или variation, но не путайте с variance). Например, в двух классах средний балл учеников составляет $100$. Минимальное и максимальное значения баллов в первом классе равны $70$ и $130$ соответственно. Во втором классе эти баллы равны $90$ и $110$. Здесь, хоть и средние баллы равны, размах значений в первом классе $130-70=60$, а во втором классе всего $110-90=20$ баллов. Это и есть вариация.

Вариация дает нам важную информацию. Зная вариацию, мы знаем насколько процесс или совокупность устойчива. Есть несколько абсолютных и относительных показателей вариации.

Абсолютные показатели вариации:

Относительные показатели вариации:

Стандартное отклонение также называют среднеквадратичным отклонением. Хочу заострить Ваше внимание на одном из терминов. Если вы читали английскую литературу, наверное, уже заметили, что слова dispersion и variance используются несколько иначе. На английском “dispersion” означает сама “вариация”. А “variance” означает русский термин “дисперсия”. Вот такая путаница.

Здесь поговорим о двух из перечисленных абсолютных показателей вариации.

Размах

Размах (range) является самым простым из абсолютных показателей вариации. Ка вы уже поняли из примера, это разница между максимальным и минимальным значениями. Для множества чисел $(95, 98, 101, 105)$ минимальное значение $95$, а максимальное $105$. Значит размах равен $105-95=10$. Но если хотя бы одно из значений намного отличается от остальных, то размах становится бесполезной. Если в предыдущее множество добавим значение $200$, то размах сильно изменится. Для множества $(95, 98, 101, 105, 200)$ размах будет равен $200-95=105$. Несмотря на то, что большинство значений лежат в интервале $10$, размах равен $105$. Так что, если какое-то значение случайно попало в нашу выборку (это может быть в результате банальной ошибки), испортится вся картина.

Межквартильный размах

Поэтому внесли другой термин под названием межквартильный размах (interquartile range). На значение межквартильного размаха мало влияют экстремальные значения совокупности. Для его нахождения берется диапазон $50\%$ серединных значений, начиная от $25\%$-й позиции и кончая на $75\%$-й позиции всех значений. Это значит, что в упорядоченном множестве берем средние $50\%$ значений и вычисляем разницу между последним и первым значением этой выборки. Если у нас всего $100$ значений, то сначала сортируем их по возрастанию, а затем берем значения на $26$-й и $75$-й позиции. Отнимаем значение, стоящее на $75$-й позиции от значения $26$-й позиции и находим межквартильный размах.

Если элемент, стоящий на $25\%$-й позиции обозначим через $Q_1$, а элемент стоящий на $75\%$-й позиции обозначим через $Q_3$ то нужное нам значение $Q_3-Q_1$.

Теперь опишем алгоритм нахождения межквартильного размаха. Напомним, что $n$ – количество значений совокупности, $k$ – процент. Следующий алгоритм выполним два раза. Сначала вместо $k$ вставляем значение $25$, затем $75$. Это и есть проценты, которые создают наше множество, граничащее между ними.

  1. Сортируем значения всей совокупности в нарастающем порядке.
  2. Если $\dfrac{nk}{100}$ целое число, то значение, соответствующее этому проценту находится так. Берем $(\dfrac{nk}{100})$-й и $(\dfrac{nk}{100}+1)$-й элемент и находим среднее арифметическое между ними.
  3. Если $\dfrac{nk}{100}$ не является целочисленным, то берем целую часть от деления $\dfrac{nk}{100}$ и добавляем $1$. То есть берем следующее целое значение. Это дает нам позицию нужного элемента.

Применим этот алгоритм к следующему множеству. Она уже упорядочена и в ней $13$ элементов ($n=13$).

$$(1, 2, 3, 5, 7, 8, 12, 12, 13, 15, 19, 20, 25)$$

Сначала находим элемент, соответствующий $25\%$-й позиции, то есть $k=25$.

$$\dfrac{nk}{100} = \dfrac{13 \cdot 25}{100}=3,25$$

Это ни целое число, поэтому работает правило номер 3. Берем целую часть, которая равна трем и прибавляем единицу ($3+1=4$). Значит элемент, соответствующий $25\%$-й позиции у нас $Q_1=5$.

Теперь выполняем тот же алгоритм для $k=75$.

$$\dfrac{nk}{100} = \dfrac{13 \cdot 75}{100}=9,75$$

Это тоже не целое число. Поэтому берем $9+1=10$-й элемент. Этот элемент у нас $Q_3=15$, а это значит, что межквартильный размах равен $Q_3-Q_1=15-5=10$.

Если посмотреть на начальное множество, то можно заметить большую разницу между обычным размахом, который равен $25-1=24$ и межквартильным размахом. Если заменим последнее значение на $1000$, то размах будет равен $999$, а межквартильный размах от этого “не пострадает”. Поэтому межквартильный размах лучше описывает большинство значений множества.

Иногда берут половину этого значения. Тогда вместо межквартильного размаха используется термин среднее квартильное расстояние:

$$q=\dfrac{Q_3-Q_1}{2}$$

Читайте также

Переменные потока и запасы
Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Скользящее среднее значение
Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка
Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Нулевая гипотеза
Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.

Что такое тренд?
Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Ошибка репрезентативности
Стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Ошибка репрезентативности показывает, насколько результаты, полученные при выборочном наблюдении отличаются от результатов, полученных при исследовании генеральной совокупности.

Среднее значение, медиана и мода
Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.

Абсолютные показатели вариации
Среднее линейное отклонение, это среднее значение расстояний каждого элемента от сренеарифметического этих чисел. А дисперсия и стандартное отклонение для генеральной совокупности и для выборки вычисляются по-разному.

Относительные показатели вариации
Стандартное отклонение, размах и среднее линейное отклонение дают абсолютные значения. Чтобы наши значения не зависели от масштаба, вводится понятие относительного показателя. То есть мы делим абсолютные значения на средние значения совокупности, чтобы избавится от единицы измерения.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.