Меню
Онлайн-инструментОнлайнБесплатно

Калькулятор коэффициента детерминации

Онлайн-калькулятор коэффициента детерминации R². Вычислите долю объяснённой дисперсии по наблюдаемым и предсказанным значениям или постройте линейную регрессию. Бесплатный инструмент для анализа данных.

Обновлено: 14 мая 2026 г.
ФормулыБыстроПриватно

Калькулятор коэффициента детерминации

Вычислите R² по наблюдаемым и предсказанным значениям или постройте линейную регрессию и узнайте долю объяснённой дисперсии.

Если X не задан, используйте Ŷ для прямого расчёта R².

Коэффициент детерминации R²
SSres (остаточная)
сумма квадратов
SStot (общая)
сумма квадратов

Как пользоваться калькулятором

1
Введите наблюдаемые значения Y. Например: 2.1, 3.8, 5.2, 7.3, 10.1. Числа можно разделять запятыми, пробелами или переносами строк.
2
Введите предсказанные значения Ŷ, если они у вас есть, — калькулятор сразу вычислит R².
3
Если предсказанных значений нет, введите X — калькулятор сам построит линейную регрессию и рассчитает R².
4
Нажмите «Рассчитать». Результат покажет R², SSres, SStot и при необходимости коэффициенты регрессии.

Примеры расчёта

Идеальная модель
Y: 2, 4, 6, 8; Ŷ: 2, 4, 6, 8 → R² = 1.0000 (полное совпадение).
Линейная регрессия
X: 1, 2, 3, 4, 5; Y: 2.1, 3.9, 6.1, 7.8, 10.2 → R² ≈ 0.9975 (очень сильная линейная связь).
Модель хуже среднего
Y: 5, 6, 7; Ŷ: 8, 4, 7 → R² ≈ 0.1429 (слабая объясняющая способность).

Формулы расчёта

Коэффициент детерминации R² определяется как:

R² = 1 − SSres / SStot

Где:

SSres = Σ (yi − ŷi
— сумма квадратов остатков (необъяснённая дисперсия)
SStot = Σ (yi − ȳ)²
— общая сумма квадратов (общая дисперсия), где ȳ — среднее значение Y

Для линейной регрессии ŷ = a·x + b:

a = Σ((xi − x̄)(yi − ȳ)) / Σ((xi − x̄)²)
b = ȳ − a·x̄

Ограничения: SStot не должен равняться нулю (все Y одинаковы — дисперсия отсутствует). При отрицательном R² модель предсказывает хуже, чем простое среднее.

Пошаговое объяснение

Рассмотрим пример с данными Y = [2, 4, 6] и Ŷ = [2.2, 3.8, 6.1].

1. Среднее Y: ȳ = (2 + 4 + 6) / 3 = 4.

2. Общая сумма квадратов SStot: (2−4)² + (4−4)² + (6−4)² = 4 + 0 + 4 = 8.

3. Остаточная сумма квадратов SSres: (2−2.2)² + (4−3.8)² + (6−6.1)² = 0.04 + 0.04 + 0.01 = 0.09.

4. R²: 1 − 0.09/8 = 1 − 0.01125 = 0.98875 — модель объясняет почти всю дисперсию.

Где применяется

  • Эконометрика и финансы: оценка качества регрессионных моделей для прогнозирования цен, спроса, ВВП.
  • Машинное обучение: метрика качества регрессионных моделей наравне с MSE и MAE.
  • Естественные науки: оценка силы связи между переменными в физических, химических и биологических экспериментах.
  • Социология и психология: анализ опросов, проверка гипотез о влиянии факторов на поведение.
  • Инженерные расчёты: калибровка датчиков, оценка точности аппроксимации экспериментальных данных.
  • Образование и экзамены: решение задач по статистике и эконометрике в вузах.

Важные нюансы

  • R² показывает долю объяснённой дисперсии, но не говорит о причинно-следственной связи. Высокий R² не означает, что X влияет на Y.
  • При добавлении новых переменных в модель R² всегда растёт (или не уменьшается), даже если переменная — случайный шум. Используйте скорректированный R² для сравнения моделей.
  • Значение R² зависит от разброса данных. На широком диапазоне X R² часто выше, чем на узком.
  • Отрицательное R² возможно, если модель не включает константу (b = 0) и предсказывает хуже среднего. Калькулятор вычислит такое значение корректно.
  • SStot = 0 возникает, когда все Y одинаковы. В этом случае R² не определён — калькулятор покажет ошибку.
  • Результаты округляются до 4 знаков после запятой. Для ответственных расчётов проверяйте в специализированном ПО.

Частые ошибки

  • Перепутаны Y и Ŷ: если поменять местами фактические и предсказанные значения, R² изменится непредсказуемо. Всегда указывайте Y как наблюдаемые данные.
  • Разное количество точек: число наблюдаемых и предсказанных значений должно совпадать. Калькулятор проверит это и сообщит об ошибке.
  • Запятая как десятичный разделитель: используйте точку для дробей (3.14, а не 3,14). Разделители между числами — запятые, пробелы или переносы строк.
  • Все X одинаковы: если введены одинаковые значения X, линейная регрессия не может быть построена (деление на ноль при расчёте наклона).
  • Недостаточно данных: для расчёта нужно минимум 2 точки. При одном значении R² не имеет смысла.
  • Игнорирование выбросов: одно экстремальное значение может сильно исказить R². Всегда проверяйте данные визуально перед расчётом.

Ответы на частые вопросы

Что означает R² = 0.85? Это значит, что модель объясняет 85% дисперсии зависимой переменной. Остальные 15% приходятся на факторы, не учтённые в модели.

Чем R² отличается от коэффициента корреляции r? Коэффициент корреляции Пирсона r показывает силу и направление линейной связи. R² = r² для простой линейной регрессии, но R² обобщается на модели с многими переменными.

Может ли R² быть больше 1? Нет, R² ≤ 1 по определению. Значение 1 означает идеальную подгонку: все точки лежат точно на линии регрессии.

Какой R² считается хорошим? Это зависит от области. В физике и инженерии R² > 0.9 — норма. В социологии и психологии R² > 0.3 уже может быть значимым результатом.

Почему скорректированный R² меньше обычного? Скорректированный R² «штрафует» модель за каждую добавленную переменную, поэтому он всегда ≤ R². Он нужен для сравнения моделей с разным числом предикторов.

Калькулятор показывает ошибку «SStot = 0» — что делать? Это значит, что все введённые значения Y одинаковы. В таких данных нет дисперсии, и R² не имеет смысла. Проверьте исходные данные.

Источники и справочные данные

Расчёт основан на стандартных формулах математической статистики и регрессионного анализа из учебников по эконометрике и прикладной статистике. Формулы соответствуют общепринятым определениям: коэффициент детерминации R² = 1 − SSres/SStot; линейная регрессия методом наименьших квадратов. Для учебных и справочных целей; при ответственных инженерных или научных расчётах проверяйте результат вручную или в специализированном ПО.

Коэффициент детерминации R²: что это, как считать и как не обмануться

Коэффициент детерминации — одна из самых популярных метрик в статистике и машинном обучении. Его обозначают R² (читается «эр-квадрат»), и он отвечает на простой вопрос: насколько хорошо модель описывает данные? Если вы строили линейную регрессию в Excel, Python или R, то R² — это та самая цифра, которую показывают первой.

Что измеряет R² на пальцах

Представьте, что у вас есть набор чисел Y: 3, 5, 7, 9, 11. Среднее значение — 7. Если вы не знаете ничего о X и просто предсказываете для каждого случая 7, то ошибаетесь на разброс данных. Теперь допустим, что у вас есть модель, которая для каждого X выдаёт Ŷ: 3.1, 4.9, 7.1, 8.9, 11.0. Ошибки модели гораздо меньше, чем ошибки от предсказания средним.

R² показывает, какую долю разброса (дисперсии) Y модель смогла объяснить. Если модель идеальна — R² = 1. Если модель не лучше среднего — R² ≈ 0. Если модель ошибается сильнее, чем среднее — R² может быть отрицательным.

Формула: три строчки, которые нужно знать

В основе R² лежат две суммы квадратов:

SStot = Σ (yi − ȳ)² — общая дисперсия Y.
SSres = Σ (yi − ŷi — остаточная дисперсия (то, что модель НЕ объяснила).

Тогда:

R² = 1 − SSres / SStot

Это работает для любой модели, которая выдаёт числовые предсказания: линейная регрессия, нейронная сеть, дерево решений — не важно. Главное, чтобы у вас были наблюдаемые Y и предсказанные Ŷ.

Связь с коэффициентом корреляции

Для простой линейной регрессии (один X) R² равен квадрату коэффициента корреляции Пирсона: R² = r². Если r = 0.9, то R² = 0.81 — модель объясняет 81% дисперсии. Но для множественной регрессии (несколько X) это равенство не работает: R² обобщает понятие на многомерный случай.

Интерпретация значений: красные флаги

  • R² > 0.9: Модель отлично описывает данные. Но проверьте, нет ли переобучения — возможно, модель «запомнила» шум.
  • 0.7 < R² < 0.9: Хорошая объясняющая способность. Типично для инженерных и физических задач.
  • 0.3 < R² < 0.7: Умеренная связь. В социальных науках это часто приемлемый результат.
  • R² < 0.3: Слабая модель. Возможно, связь нелинейная, или пропущены важные переменные.
  • R² < 0: Модель вредна — она предсказывает хуже, чем простое среднее. Такое бывает, если модель не включает свободный член (константу).

Почему R² может обмануть

Высокий R² не гарантирует, что модель правильная. Вот четыре ситуации, когда R² вводит в заблуждение:

1. Выбросы. Одна точка, сильно удалённая от остальных, может резко повысить R². Модель «подстроится» под выброс, но будет плохо предсказывать основную массу данных.

2. Нелинейность. Данные могут иметь форму дуги, а R² для прямой линии всё равно покажет 0.7. Всегда смотрите на график остатков.

3. Много переменных. Если взять 10 случайных шумовых переменных и добавить их в модель, R² вырастет. Скорректированный R² частично решает эту проблему.

4. Узкий диапазон X. Если X меняется в пределах 0.1–0.2, а Y — в пределах 100–200, R² будет низким даже при сильной реальной связи. Расширение диапазона X часто повышает R².

Скорректированный R²: когда модель становится слишком сложной

Обычный R² всегда растёт при добавлении новых переменных — даже если это случайный шум. Скорректированный R² вводит штраф за количество переменных:

adj = 1 − [(1 − R²)(n − 1) / (n − k − 1)]

где n — число наблюдений, k — число переменных в модели. Если новая переменная не улучшает модель, R²adj уменьшится. Используйте его для сравнения моделей с разным числом предикторов.

Как проверить модель помимо R²

Не полагайтесь только на R². Хорошая практика — смотреть на несколько метрик одновременно:

  • MSE (среднеквадратичная ошибка): Σ(ŷ − y)² / n. Показывает абсолютную величину ошибки в единицах Y.
  • MAE (средняя абсолютная ошибка): Σ|ŷ − y| / n. Менее чувствительна к выбросам, чем MSE.
  • График остатков: остатки (y − ŷ) не должны иметь структуры. Если видна закономерность — модель не улавливает важную зависимость.

Пример из жизни: прогноз продаж

Допустим, вы анализируете зависимость продаж кофейни от температуры воздуха. Данные за 10 дней: при 15°C продажи — 42 чашки, при 20°C — 50, при 25°C — 61, при 30°C — 68, при 35°C — 80. Строите линейную регрессию и получаете R² = 0.94. Это很高的 показатель: температура объясняет 94% разброса продаж. Но значит ли это, что жаркая погода заставляет людей покупать больше кофе? Не обязательно. Возможно, в жару люди чаще заходят в кондиционированное помещение и заодно берут кофе. R² не отвечает на вопрос «почему» — только «насколько сильно связаны».

Практические советы

  • Всегда проверяйте данные на выбросы до расчёта R² — один экстремум может исказить картину.
  • Сравнивайте R² с R²adj, если у вас больше 2–3 переменных.
  • Для временны́х рядов обычный R² часто завышен — используйте специальные метрики вроде R² вне выборки.
  • Не сравнивайте R² моделей, построенных на разных наборах данных: R² зависит от дисперсии Y, а она может быть разной.
  • Помните: R² = 0.5 на 1000 наблюдениях — это часто полезнее, чем R² = 0.9 на 10 наблюдениях.

Итог

Коэффициент детерминации — удобный и интуитивно понятный показатель. Он говорит: «Вот какая часть разброса данных объяснена моделью». Но как любой инструмент, R² требует осмысленного применения. Проверяйте остатки, не гонитесь за цифрой 0.99, и помните, что корреляция не равна причинности. Используйте калькулятор выше, чтобы быстро рассчитать R² для своих данных и лучше понять, насколько ваша модель близка к реальности.

Нужен другой инструмент?

Все инструменты в категории