Блог Джафара Алиева

Архив

Домашняя страница :: Другие статьи :: Аналитика


Дата создания:

Нулевая гипотеза

Нулевая гипотеза (null hypothesis) утверждает, что между исследуемыми данными никакой закономерности нет.  Объясним это на простом примере. Допустим, я утверждаю, что между температурой воздуха и влажностью никакой зависимости не существует и по умолчанию все с этим согласны. Это только гипотеза и не требует доказательства. А если вы решите его опровергнуть, то именно Вам нужно доказать мою неправоту.

Фактически опровергнув нулевую гипотезу, вы принимаете позицию нонконформиста, который не хочет признать общепринятую гипотезу о независимости этих двух параметров. Нулевую гипотезу обозначают знаком $H_0$.

Пока нулевая гипотеза не опровергнута, она в силе. Вспомните принцип презумпции невиновности. Подозреваемый считается невиновным, пока не будет доказано обратное. Для опровержения нулевой гипотезы о не существовании связи между температурой и влажностью воздуха придется провести эксперимент, скажем, повесить рядом гигрометр и термометр и записывать показатели в течение некоторого времени. А затем найти взаимосвязь между ними, доказывая, что эти данные, как-то коррелируют.

Альтернативная гипотеза

Опровергая нулевую гипотезу вы, фактически выдвигаете альтернативную гипотезу (alternate hypothesis). Альтернативной гипотезой в нашем случае, будет существование взаимосвязи между температурой и влажностью воздуха. Альтернативная гипотеза обозначается знаком $H_1$ или $H_A$.

Альтернативная гипотеза может быть двусторонней и односторонней. Если нулевую гипотезу для параметров $X_1$ и $X_2$ обозначим как $H_0 : X_1= X_2$, то двусторонняя альтернатива будет $H_1: X_1 \ne X_2$.  А две односторонние альтернативы $X_1 > X_2$ и $X_1 < X_2$. Как видно, двусторонняя альтернативная гипотеза одна. Нулевая и двусторонняя альтернативная гипотеза являются взаимоисключающими.

Чтобы опровергнуть нулевую гипотезу и доказать альтернативную, нужно собрать достаточное количество данных, иначе доказательство всегда будет вызывать сомнения. Например, собрав данные о температуре и влажности воздуха в вашем доме и показав их взаимосвязь, вы только утверждаете эту зависимость для вашего дома.  А собрав подобные данные из нескольких домов и квартир, можно в лучшем случае опровергнуть нулевую гипотезу для помещения. Для открытой местности, для улицы, для лесной или горной местности нулевая гипотеза останется в силе. Даже ваше доказательство для помещения тоже верно в определенной степени. Эта степень называется уровнем значимости. Про это поговорим попозже. Чтобы понять этот термин сначала разберемся с ошибками.

Ошибки первого и второго рода

Теперь, когда вы знаете, что такое нулевая и альтернативная гипотезы, поговорим об ошибках, которые возникают при опровержении или принятии нулевой гипотезы. Как я уже показал, полностью исключить нулевую гипотезу во многих случаях, если не во всех, невозможно. Поэтому всегда остается место для ошибок.

Если я доказываю неверность нулевой гипотезы, а на самом деле она оказывается верной, значит, я совершаю ошибку, опровергнув правильный факт. Такого рода ошибка называется ошибкой первого рода (type I error).   А если  принимаю нулевую гипотезу и на основании этого строю свои догадки, а в последующем эта гипотеза оказывается неверной, то я совершаю ошибку второго рода (type II error).

Представьте, что нулевую гипотезу приняли за само собой разумеющееся, как аксиому, и на основе этого построили свою теорию. А потом выяснилось, что эта гипотеза неверна. Тогда частично или полностью рухнет и ваша теория. Но это не всегда так. Например, опровергая геоцентрическую систему в XVII веке, человечество не отказалось от планиметрии. Хотя и возникли другие геометрии, но планиметрия по сей день везде применяется.

Итак, ошибки первого и второго рода можно наглядно показать следующей таблицей. Значения обозначений $\alpha$ и $\beta$ объясним позднее.

  Гипотеза $H_0$ верна Гипотеза $H_1$ верна ($H_0$ неверно)
Принятие гипотезы $H_0$ $H_0$ верно принята, $1-\alpha$ $H_0$ неверно принята (ошибка второго рода $\beta$)
Принятие гипотезы $H_1$ (опровержение $H_0$) $H_0$ неверно опровергнута (ошибка первого рода $\alpha$) $H_0$ верно опровергнута $1-\beta$

Ошибку первого типа часто называют ложной тревогой. Этот термин больше всего используется в медицине. Если УЗИ или анализ крови показал какую-то болезнь, всегда есть вероятность ложной тревоги. Это может быть вследствие ошибки врача или просроченных реактивов в лаборатории. А ошибку второго рода называют пропуском события. В медицине примером этому может быть ложный отрицательный тест на беременность. Скажем, девушка залетела, а тест не показал. А её все тянет ко сну. Узнала, когда уже начался токсикоз.

Как видите, ошибки первого и второго рода всегда имеют место. Поэтому, нужно хотя бы знать вероятность таких ошибок.  Тут и возникает еще один термин.

Уровень значимости

Вероятность возникновения ошибки первого рода называется уровнем значимости (significance level). Уровень значимости обозначают буквой  $\alpha$. Поэтому ошибку первого рода иногда называют $\alpha$-ошибкой ($\alpha$-error). Обратное значение уровня значимости ($1-\alpha$) называется доверительной вероятностью или коэффициентом доверия (confidence coefficient).

Вероятность возникновения ошибки второго рода обозначают буквой $\beta$, поэтому сама ошибка называется $\beta$-ошибкой ($\beta$-error). Эта ошибка сама не используется в статистике, зато используется его обратная величина ($1-\beta$). Обратная величина $\beta$-ошибки называется мощностью критерия (power). Мощность критерия выражает вероятность правильного принятия альтернативной гипотезы.

В последнее время именно на мощность критерия больше всего обращают внимание. Потому что, исследователи и агентства не хотят тратить усилия и ресурсы на исследование области, если не будет достигнута разумная вероятность результата. Поэтому, чем больше мощность критерия, тем меньше вероятность возникновения ошибки второго рода.

Читайте также

Переменные потока и запасы
Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.

Показатели вариации
Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.

Типы выборки
Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.

Скользящее среднее значение
Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.

Генеральная совокупность и выборка
Генеральной совокупностью называют всё исследуемое множество. На английском языке этот термин называется популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.

Что такое тренд?
Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.

Ошибка репрезентативности
Стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Ошибка репрезентативности показывает, насколько результаты, полученные при выборочном наблюдении отличаются от результатов, полученных при исследовании генеральной совокупности.

Среднее значение, медиана и мода
Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.

© Все права защищены

Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.