Регрессия (математика)
Эту страницу предлагается объединить со страницами Регрессионный анализ и Условное математическое ожидание. |
Регре́ссия (
История
Этот термин в статистике впервые был использован
Описание
Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции
В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть ни что иное как
В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения — это линейная аппроксимация истинного уравнения регрессии.
В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии[3]. Эти проблемы рассматриваются в рамках регрессионного анализа.
Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.
Линейная регрессия
Представим зависимость y от x в виде линейной модели первого порядка:
Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:
где означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели. Определим также — значение ошибки аппроксимации для -го наблюдения.
Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[4][5].
Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:
здесь средние значения определяются как обычно: , и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: . Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член , то прямая проходит через начало координат и оценка углового коэффициента равна
- ,
а её стандартной ошибки
Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:
Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x:
- ,
где t(1−α/2, n−2) — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:
Здесь m — кратность измерения y при данном x. И -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:
- .
На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.
Еще немного статистики
Можно строго доказать, что, если условное матожидание некоторой двумерной случайной величины (X, Y) является линейной функцией от , то это условное матожидание обязательно представимо в виде , где E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ.
Более того, для уже упомянутой ранее линейной модели , где и — независимые случайные величины, а имеет нулевое матожидание (и произвольное распределение), можно доказать, что . Тогда с помощью указанного ранее равенства можно получить формулы для и : ,
.
Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами и , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.
Примечания
- ↑ Фёрстер Э., Рёнц Б., Методы корреляционного и регрессионного анализа, 1983, с. 15.
- ↑ Регрессия // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
- ↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
- ↑ Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
- ↑ Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8
Литература
- Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов. — М.: Финансы и статистика, 1983. — 304 с. — (Библиотечка иностранных книг для экономистов и статистиков).