Дата создания:
Медиана в статистике
медиана
Со школьной скамьи мы знаем, что для вычисления “среднего” всегда сумму всех чисел нужно делить на их количество. Это значение называется “средним арифметическим” значением совокупности. На самом деле это один, и поверьте далеко не совершенный, из способов нахождения средней характеристики множества.
Потом уже из курса “Теории вероятностей и математической статистики” мы узнали о “медиане” и “моде”. Еще позднее узнали о “среднем геометрическом” и “среднем гармоническом” значениях.
Сначала поговорим о недостатках среднего арифметического значения для характеристики множества. В статистике основным недостатком этого значения является его чувствительность к экстремумам. То есть, если у вас элементы множества неравномерно “разбросаны”, говоря на жаргонном языке статистиков “скошены”, то среднее арифметическое значение не даст вам естественной картины. Пример этого показан здесь. А если данные категориальные, то вообще среднее арифметическое просто не вычислите.
Именно для таких случаев существует такая характеристика как медиана. Для нахождения медианы, сначала надо упорядочить все элементы множества в порядке возрастания или убывания. Если количество элементов нечетно, то медиана равна элементу, стоящему ровно посередине этого упорядоченного множества. Если количество элементов четно, то медиана будет среднеарифметическое двух соседних чисел, стоящих посередине этого отсортированного множества.
Вышесказанное можно сформулировать в виде определения следующим образом.
Медиана – середина упорядоченного ряда. Медиана делит этот ряд пополам таким образом, что в одной половине стоят все значения меньшие, а в другой все значения большие медианы.
Как видите, нахождение медианы требует намного больше усилия, чем нахождение средней арифметической. Думаю именно это и являлось основной причиной использования среднего арифметического значения, нежели медианы. В эпоху больших компьютеров, когда ЭВМ был похож на ламповый завод, выполняя всего несколько тысяч операций в секунду, и сортировка большого массива считалось одним из сложных задач, конечно легче было складывать числа и делить на их количество. Но почему, до сих пор это значение используется для характеристики совокупности?
Представьте, что мы нашли медиану и среднее арифметическое для выборки из нескольких значений. Затем, если добавим еще 5 значений к этой выборке, близких к экстремуму генеральной совокупности, то эти 5 значений скорее значительно изменят среднее арифметическое. А если вычислить медиану для новой выборки, это значение окажется в разумной окружности медианы предыдущей выборки.
Медиана обладает следующим важным свойством, что делает его незаменимой в теории оптимизации. Сумма абсолютных величин отклонений элементов множества от медианы всегда меньше, чем от другой величины. То есть, если $m$ медиана, то $\sum_{i=1}^n|x_i-m|$ является минимальной.
Подытожив сказанное можно вывести два случая, когда вместо среднеарифметического значения нужно использовать медиану:
- данные порядковые, но неметрические (категориальные)
- данные сильно “разбросаны”, т.е. имеют несколько слишком больших или слишком маленьких значений
Читайте также
Среднее значение, медиана и мода
Все чаще встречаем такие термины, как Бизнес-аналитика, Система поддержки принятия решений, Предсказательная аналитика. Но их уже достаточно распиарили и без нас. Поэтому остановимся на объяснении этих трех терминов: среднее значение, медиана и мода.
© Все права защищены
Все статьи этого сайта написаны Джафаром Н.Алиевым. Перепечатывание любой статьи на стороннем ресурсе должно сопровождаться именем автора и ссылкой на данный ресурс. Сам автор следует этим правилам.