Дисперсия: что это такое и как её правильно рассчитать
Что такое дисперсия простыми словами
Дисперсия — это мера разброса данных. Она показывает, насколько сильно отдельные значения отклоняются от среднего арифметического. Если все числа примерно одинаковые — дисперсия мала. Если числа сильно различаются — дисперсия велика.
Представьте два класса, написавших контрольную. В первом классе все получили от 55 до 65 баллов — результаты плотные, разброс небольшой. Во втором классе оценки разлетелись от 20 до 95 баллов — разброс огромный. Дисперсия во втором классе будет значительно выше, хотя средний балл может оказаться одинаковым.
Математически дисперсия — это среднее арифметическое квадратов отклонений каждого значения от среднего. Квадраты нужны, чтобы отрицательные и положительные отклонения не гасили друг друга.
Два вида дисперсии: генеральная и выборочная
В статистике различают генеральную дисперсию σ² (для всей совокупности) и выборочную дисперсию s² (для выборки из совокупности). Разница — в знаменателе формулы: n против n−1.
Допустим, вы измеряете рост всех учеников школы (1000 человек). Это генеральная совокупность — делите на 1000. Но если вы измерили только 30 случайных учеников и хотите по ним оценить разброс роста во всей школе — это выборка. Здесь применяется поправка Бесселя: деление на n−1 = 29, чтобы компенсировать недооценку разброса, возникающую при работе с выборкой.
Практическое правило: если данные — это вся интересующая вас группа, берите генеральную дисперсию. Если данные — лишь часть группы, а выводы нужны обо всей группе — берите выборочную.
Формулы и их расшифровка
x̄ = (x₁ + x₂ + ... + xₙ) / n
Среднее арифметическое — базовая опорная точка. От неё отсчитываются все отклонения.
σ² = [(x₁−x̄)² + (x₂−x̄)² + ... + (xₙ−x̄)²] / n
Генеральная дисперсия — для полной совокупности. Знаменатель n.
s² = [(x₁−x̄)² + (x₂−x̄)² + ... + (xₙ−x̄)²] / (n − 1)
Выборочная дисперсия — для выборки. Знаменатель n−1. Причина: выборочное среднее x̄ всегда ближе к выборочным точкам, чем истинное среднее генеральной совокупности, поэтому без поправки дисперсия систематически занижается.
σ = √σ² s = √s²
Стандартное отклонение — квадратный корень из дисперсии. Возвращает показатель разброса к исходной размерности данных.
Пример расчёта вручную
Возьмём данные: 10, 12, 23, 23, 16, 23, 21, 16 (8 чисел).
Шаг 1. Среднее: (10+12+23+23+16+23+21+16) / 8 = 144 / 8 = 18.
Шаг 2. Отклонения от среднего: −8, −6, 5, 5, −2, 5, 3, −2.
Шаг 3. Квадраты отклонений: 64, 36, 25, 25, 4, 25, 9, 4.
Шаг 4. Сумма квадратов: 64+36+25+25+4+25+9+4 = 192.
Шаг 5. Выборочная дисперсия: 192 / 7 ≈ 27,4286. Генеральная: 192 / 8 = 24.
Шаг 6. Стандартное отклонение (выборочное): √27,4286 ≈ 5,2372. Генеральное: √24 ≈ 4,8990.
Разница между двумя подходами заметна при малом n и сглаживается с ростом объёма данных.
Где применяется дисперсия в реальной жизни
Финансы. Дисперсия доходности актива — ключевая мера риска. Акции с высокой дисперсией могут принести как большую прибыль, так и большие убытки. Консервативные инвесторы предпочитают активы с низкой дисперсией.
Производство. На заводе измеряют диаметр выпускаемых болтов. Если дисперсия мала — станок работает стабильно. Рост дисперсии сигнализирует о необходимости наладки оборудования.
Медицина. При клинических испытаниях нового препарата измеряют давление пациентов до и после приёма. Дисперсия разности показателей помогает понять, насколько стабилен эффект лечения.
Образование. Анализ дисперсии оценок позволяет выявить, насколько однороден класс и насколько объективно составлен тест. Большая дисперсия может указывать на то, что тест хорошо различает сильных и слабых учеников.
Метеорология. Дисперсия температуры за месяц показывает, насколько погода была стабильной. Малая дисперсия — ровный климат, большая — частые перепады.
Машинное обучение. В алгоритмах типа PCA (метод главных компонент) дисперсия определяет, сколько информации несёт каждая компонента. Признаки с нулевой дисперсией бесполезны для модели и удаляются на этапе предобработки.
Связь дисперсии со стандартным отклонением
Стандартное отклонение — это просто квадратный корень из дисперсии. Зачем нужны оба показателя? Дисперсия удобна в математических выкладках: дисперсия суммы независимых величин равна сумме их дисперсий. Это свойство активно используется в статистическом анализе.
Стандартное отклонение удобнее для интерпретации. Если средний рост в группе 170 см, а стандартное отклонение 10 см, это сразу говорит: большинство людей имеют рост от 160 до 180 см (в пределах ±1σ). А вот дисперсия 100 см² — менее наглядна.
Ограничения и предостережения
Дисперсия и стандартное отклонение очень чувствительны к выбросам. Одно аномальное значение может в разы увеличить результат. Перед расчётом полезно визуально оценить данные (например, построить гистограмму) и проверить подозрительные значения.
Для асимметричных распределений (например, доходы населения) одна лишь дисперсия не даёт полной картины. Нужно смотреть на квартили, медиану, коэффициент асимметрии.
При малых выборках (n < 30) выборочная дисперсия оценивается с большой погрешностью. Доверительный интервал для неё может быть весьма широким.
Не сравнивайте дисперсии напрямую, если данные измерены в разных единицах. Для сравнения разброса разнородных величин используйте коэффициент вариации: CV = s / x̄ × 100%.
Практические советы
Всегда указывайте, какую дисперсию вы привели — выборочную или генеральную. В научных публикациях принято использовать выборочную дисперсию (s²) и стандартное отклонение (s), поскольку исследователи почти всегда работают с выборками.
При оформлении результатов приводите и среднее, и стандартное отклонение: например, «среднее составило 18,0 ± 5,2 (M ± s)». Это даёт читателю полное представление о данных.
Для предварительной прикидки разброса можно использовать правило трёх сигм: в интервале x̄ ± 3s лежит почти 99,7% всех значений нормально распределённых данных. Это помогает быстро оценить границы типичных значений.