Регрессия (математика)

Регре́ссия (

математическое выражение, отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости

y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении

x=x_{i}

наблюдается

n_{i}

значений y_i1…y_{in_i} величины y, то зависимость средних арифметических

{\bar {y}}_{i}=(y_{i1}+...+y_{in_{i}})/n_{i}

от

x=x_{i}

и является регрессией в статистическом понимании этого термина [2].

История

Этот термин в статистике впервые был использован

абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной

.

Описание

Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

g(x)=E(Y\mid X=x).

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть ни что иное как

двумерное нормальное распределение

с E(X)=μ₁, E(Y)=μ₂, var(X)=σ₁², var(Y)=σ₂², cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным

E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1}),

и дисперсией

\mathrm {var} (Y\mid X=x)=\sigma _{2}^{2}(1-\varrho ^{2}).

В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения — это линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии^[3]. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия

Представим зависимость y от x в виде линейной модели первого порядка:

y=\beta _{0}+\beta _{1}x+\varepsilon .

Будем считать, что значения x определяются без ошибки, β₀ и β₁ — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ². Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x_i, y_i), i=1, …, n. Таким образом мы можем записать:

{\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n

где ${\widehat {y}}$ означает предсказанное моделью значение y при данном x, b₀ и b₁ — выборочные оценки параметров модели. Определим также $e_{i}=y_{i}-{\widehat {y_{i}}}$ — значение ошибки аппроксимации для $i$ -го наблюдения.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы^[4]^[5].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\mathrm {cov} (x,y)}{\sigma _{x}^{2}}};

b_{0}={\bar {y}}-b_{1}{\bar {x}};

s_{e}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\widehat {y}})^{2}}{n-2}};

s_{b_{0}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};

s_{b_{1}}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}},

здесь средние значения определяются как обычно: ${\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}$ , ${\bar {y}}={\frac {\sum _{i=1}^{n}y_{i}}{n}}$ и s_e² обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ² в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: $t=b/s_{b}$ . Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, $b_{1}$ — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член $b_{0}$ , то прямая проходит через начало координат и оценка углового коэффициента равна

b={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}

,

а её стандартной ошибки

s_{b}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}x_{i}^{2}}}}.

Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β₀ и β₁ не известны. Известны только их оценки b₀ и b₁. Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии ${\widehat {y}}$ . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

s_{\widehat {y}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};

Теперь можно вычислить $100\cdot \left(1-{\frac {\alpha }{2}}\right)$ -процентный доверительный интервал для значения уравнения регрессии в точке x:

{\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}}<y<{\widehat {y}}+t_{(1-\alpha /2,n-2)}s_{\widehat {y}}

,

где t_{(1−α/2, n−2)} — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

s_{Y}=s_{e}{\sqrt {{\frac {1}{m}}+{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};

Здесь m — кратность измерения y при данном x. И $100\cdot \left(1-{\frac {\alpha }{2}}\right)$ -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

{\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y}<y<{\widehat {y}}+t_{(1-\alpha /2,n-2)}s_{Y}

.

На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

Еще немного статистики

Можно строго доказать, что, если условное матожидание $E(Y\mid X=x)$ некоторой двумерной случайной величины (X, Y) является линейной функцией от $x$ , то это условное матожидание обязательно представимо в виде $E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1})$ , где E(X)=μ₁, E(Y)=μ₂, var(X)=σ₁², var(Y)=σ₂², cor(X, Y)=ρ.

Более того, для уже упомянутой ранее линейной модели $Y=\beta _{0}+\beta _{1}X+\varepsilon$ , где $X$ и $\varepsilon$ — независимые случайные величины, а $\varepsilon$ имеет нулевое матожидание (и произвольное распределение), можно доказать, что $E(Y\mid X=x)=\beta _{0}+\beta _{1}x$ . Тогда с помощью указанного ранее равенства можно получить формулы для $\beta _{0}$ и $\beta _{1}$ : $\beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}$ ,

$\beta _{0}=\mu _{2}-\beta _{1}\mu _{1}$ .

Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами $\beta _{0}$ и $\beta _{1}$ , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.

Примечания

↑ Фёрстер Э., Рёнц Б., Методы корреляционного и регрессионного анализа, 1983, с. 15.
↑ Регрессия // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
↑ Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
↑ Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8

Литература

Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов. — М.: Финансы и статистика, 1983. — 304 с. — (Библиотечка иностранных книг для экономистов и статистиков).

Ссылки

В Викисловаре есть статья «регрессия»

Francis Galton. "Regression Towards Mediocrity in Hereditary Stature, " Journal of the Anthropological Institute, 15:246-263 (1886). (англ.)

[_871d9c46af63b7c5-1] Фёрстер Э., Рёнц Б., Методы корреляционного и регрессионного анализа, 1983, с. 15.

[2] Регрессия // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.

[3] Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3

[4] Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)

[5] Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8

[3]

[4]

[5]

Ссылки на внешние ресурсы
Тематические сайты	MathWorld
Словари и энциклопедии	Большая российская (старая версия) Britannica (онлайн)