Дата создания:
Генеральная совокупность и выборка
выборка
Генеральной совокупностью называют всё исследуемое множество. Например, всё население. На английском языке этот термин так и называется, популяцией (population). Выборкой (на английском sample) называют некоторое случайно отобранное подмножество из генеральной совокупности.
В большинстве случаев приходится работать с выборкой, так как сама генеральная совокупность либо оказывается слишком большой, либо по какой-то причине не представляется возможности оперировать с ней.
Например, если нам нужно знать средний возраст курящих людей среди всего сознательного населения города, мы не можем опросить всё население. Поэтому, зная соотношение мужчин и женщин в городе, берем выборочно примерное количество в таком соотношении среди мужчин и женщин. Если они равны, то берем 50 на 50. Если нет, нужно брать именно в таком соотношении. А если не владеем такой информацией, то просто выбираем респондентов (опрашиваемых людей) случайным образом. Желательно выборку делать из разных концов города. Потом проводим опрос среди людей из этой выборочной совокупности (выборки).
Результат этого опроса нам даст некоторую статистику. Тут слово “статистика” употребляется как термин. Значения, полученные из генеральной совокупности, обычно называют параметрами, а значения, полученные из выборочной совокупности, статистикой. Услышав термин “параметры”, я сначала не въехал, почему именно это слово используется в качестве характеристики. Тем более в программировании и в математике параметр имеет совсем иное значение. Потом, немного подумав, понял, что подразумевает термин “параметр”. Так как параметры способны описать нам всю генеральную совокупность, они как бы порождают его в некотором контексте. А статистика дает нам иллюзию обо всей интересующей нас совокупности.
Итак, вернемся к нашему курящему населению города. Если бы мы могли опросить всю генеральную совокупность, мы бы получили полную и более достоверную информацию о среднем возрасте курящих. А в большинстве случаев приходится довольствоваться статистикой.
Ошибки статистики
Многие факторы влияют на статистику. Погрешность начинается уже на этапе образования выборки. Потому что невозможно получать выборку идеально случайным образом. Для проверки случайности выборки есть специальные методы. Один из них критерий согласия Пирсона или критерий Хи-квадрат ($\chi^2$). Про него можете прочитать прогуглив “Pearson chi-square test”. Другой метод называется критерием Кендалла.
Далее следует еще один фактор, который влияет на качество статистики. Это предвзятое отношение самого человека, кто проводит опрос. Он сам, даже не замечая этого, может повлиять на ответ респондента.
Третий важный фактор это сам респондент. В зависимости от вопроса респондент может скрывать правду. Например, если спросить возраст у женщины, она вряд ли вам скажет правду. Или скажем, на вопрос как часто вы моете зубы, респондент постыдится ответить, что он не каждый день их моет. Потому что, начиная с детства нам твердят, что каждый день, вставая с постели первым делом нужно мыть зубы. Некоторые даже по 3-5 раз моют зубы. Неудивительно, что после этого стоматологический бизнес так расцветает. Человек, который по 5 раз трет эмаль зубов, отличный пациент, регулярно посещающий своего стоматолога.
Я здесь перечислил только три основных фактора, которые влияют на результат. На самом деле их множество. Чтобы вычислить достоверность статистических данных и знать, насколько репрезентабельна наша выборка, вычисляют ошибку репрезентативности или стандартную ошибку средней арифметической (standard error). Про этот термин расскажем подробнее в другой статье.
Термины и обозначения в статистике
Эта статья как бы является обзором на вводный курс математической статистики. Поэтому хочу дать некоторые обозначения, которые будут использованы в последующем. Так как в случае выборки мы не можем быть уверены в достоверности опыта, для обозначения статистических величин выборки и параметров генеральной совокупности используются разные буквы. Генеральную совокупность в основном обозначают греческими буквами, а выборку латинскими.
$n$ – количество значений в выборке
$N$ – количество значений в генеральной совокупности
$\bar{x}$ или $\bar{X}$ – среднее значение показателей выборки
$\mu$ – среднее значение совокупности
$s$ – стандартное (среднеквадратичное) отклонение в выборке
$\sigma$ – стандартное отклонение в генеральной совокупности
$r$ – коэффициент линейной корреляции в выборке
$\rho$ – коэффициент линейной корреляции в генеральной совокупности
$\hat{p}$ – пропорция в выборке
$p$ – пропорция в генеральной совокупности
$V_{\sigma}$ – коэффициент вариации генеральной совокупности
$V_s$ –
коэффициент вариации выборки
Многие термины могут показаться вам незнакомыми. Я перечислил эти распространенные термины и их обозначения в одном месте, чтобы увидев их в других статьях, вы не искали значения по всему сайту, а смотрели только сюда. Объяснение каждого термина описывается в соответствующей статье.
Читайте также
Типы выборки
Для расследования генеральной совокупности применяют два вида выборки. Случайную и неслучайную выборку. Простая, систематическая, стратифицированная и кластерная выборка являются случайными выборками. Стихийная, удобная и квотная выборка являются примером неслучайной выборки.
Нулевая гипотеза
Нулевая гипотеза утверждает, что между исследуемыми данными никакой закономерности нет. Пока нулевая гипотеза не опровергнута, она в силе. Альтернативная гипотеза является обратной нулевой гипотезе.
Ошибка репрезентативности
Стандартная ошибка (standard error) и ошибка репрезентативности часто употребляются, как взаимозаменяемые термины. Ошибка репрезентативности показывает, насколько результаты, полученные при выборочном наблюдении отличаются от результатов, полученных при исследовании генеральной совокупности.
Переменные потока и запасы
Все экономические переменные, которые имеют временное измерение, т.е. величины которых можно измерить по истечении времени называем переменными потока. А запас не имеет временное измерение.
Типы данных в статистике
Такие выражения, как минимум, максимум, медиана и процентиль имеют значение лишь для порядковых данных. Порядковые данные делятся на метрические и неметрические.
Среднее значение, медиана и мода
Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.
Показатели вариации
Чтобы знать, насколько далеко значение совокупности простирается от центральной тенденции, вычисляют вариацию (на английском dispersion или variability, но не путайте с variation). Есть несколько показателей вариации. Это размах, межквартильный размах, среднее линейное отклонение, дисперсия и стандартное отклонение.
Скользящее среднее значение
Среди наиболее популярных технических индикаторов чаще всего, скользящее среднее значение используются для измерения направления текущего тренда. Самая простая формула скользящей средней, известна как Простое Скользящее Среднее значение.
Что такое тренд?
Термины тренд и тенденция используются в различных целях. Люди часто говорят о тенденции относительно роста цен и падения курса какой-то валюты. Здесь мы раскроем статистическое значение этих терминов.
© Все права защищены
Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.