Гауссовский процесс

В

стохастический процесс (или случайный процесс — это такое семейство случайных величин, статистические свойства элементов которого зависят от скалярного параметра t, которому придаётся смысл времени), такой что любой конечный набор этих случайных величин имеет многомерное нормальное распределение

(гауссовское распределение), то есть любая конечная линейная комбинация из них нормально распределена. Распределение гауссовского процесса – это совместное распределение всех его случайных величин и, в силу чего, является распределением функций с непрерывной областью определения.

Если рассматривать гауссовский процесс как способ решения задач машинного обучения, то используется ленивое обучение и мера подобия между точками (функция ядра) для получения прогноза значения невидимой точки из обучающей выборки. В понятие прогноза, помимо самой оценки точки, входит информация о неопределенности — одномерное гауссовское распределение.[1]

Для вычисления прогнозов некоторых функций ядра используют метод матричной алгебры, кригинг.

Гауссовский процесс назван так в честь Карла Фридриха Гаусса, поскольку в его основе лежит понятие гауссовского распределения (нормального распределения). Гауссовский процесс может рассматриваться как бесконечномерное обобщение многомерных нормальных распределений. Эти процессы применяются в статистическом моделировании; в частности используются свойства нормальности. Например, если случайный процесс моделируется как гауссовский, то распределения различных производных величин, такие как среднее значение процесса в течение определенного промежутка времени и погрешность его оценки с использованием выборки значений, могут быть получены явно.

Определение

Случайный процесс с непрерывным временем является гауссовским тогда и только тогда, когда для любого конечного множества индексов $t_{1},\ldots ,t_{k}$ из множества индексов $T$

\mathbf {X} _{t_{1},\ldots ,t_{k}}=(\mathbf {X} _{t_{1}},\ldots ,\mathbf {X} _{t_{k}})

- многомерная гауссовская случайная величина.^[2] То же самое, что и всякая линейная комбинация $(\mathbf {X} _{t_{1}},\ldots ,\mathbf {X} _{t_{k}})$ имеет одномерное нормальное (гауссовское) распределение. Используя характеристические функции случайных величин, свойство Гаусса можно сформулировать следующим образом: $\left\{X_{t};t\in T\right\}$ - гауссовское тогда и только тогда, когда для любого конечного множества индексов $t_{1},\ldots ,t_{k}$ , существуют вещественные значения $\sigma _{\ell j}$ , $\mu _{\ell }$ где $\sigma _{jj}>0$ такие, что для всех $s_{1},s_{2},\ldots ,s_{k}\in \mathbb {R}$ выполнено равенство

\operatorname {E} \left(\exp \left(i\ \sum _{\ell =1}^{k}s_{\ell }\ \mathbf {X} _{t_{\ell }}\right)\right)=\exp \left(-{\frac {1}{2}}\,\sum _{\ell ,j}\sigma _{\ell j}s_{\ell }s_{j}+i\sum _{\ell }\mu _{\ell }s_{\ell }\right).

Где $i$ - мнимая единица.

Числа $\sigma _{\ell j}$ и $\mu _{\ell }$ - ковариации и средние значения переменных в процессах соответственно^[3].

Ковариационные функции

Главная особенность гауссовских процессов - они могут быть полностью определены второй порядковой статистикой^[4]. Следовательно, ковариационная функция полностью определяет поведение процесса, если математическое ожидание гауссовского процесса равно нулю. Неотрицательная определенность функции делает возможным её спектральное разложение при помощи разложения Карунена — Лоэва. Через ковариационную функцию можно определить стационарность, изотропию, гладкость и периодичность процесса^[4]^[5].

Стационарность выражает поведение процесса относительно расстояния между любыми двумя точками $x$ и $x'$ . Если процесс стационарный, то он зависит от взаимного расположения своих точек, расстояния между ними, $x-x'$ , в ином случае, он нестационарный, то есть зависит от фактического положения точек $x$ и $x'$ . Примером может послужить частный случай процесса Орнштейна — Уленбека, процесс броуновского движения: он является стационарным.

Если процесс зависит только от $|x-x'|$ , евклидова расстояния (не направления) между $x$ и $x'$ , то процесс считается изотропным. Стационарный и изотропный процесс называют однородным;^[6] на практике свойства стационарности и изотропии отражают различия(или, скорее, их отсутствие) в поведении процесса с учётом положения наблюдателя.

Суть гауссовских процессов заключается в получении априорных распределений вероятности, гладкость которых зависит от взятой ковариационной функции^[4]. Если мы ожидаем, что для "лежащих близко" входных точек $x$ и $x'$ соответствующие им выходные точки $y$ и $y'$ также "лежат близко", тогда присутствует предположение о непрерывности функции. Если мы хотим допустить значительное смещение, то нужно выбрать более грубую ковариационную функцию. В качестве примеров крайнего поведения можно привести ковариационную функцию Орнштейна — Уленбека и квадратичную экспоненциальную функцию, где первая не дифференцируема нигде, а последняя бесконечно дифференцируема.

Под периодичностью понимается индуцирование периодических закономерностей в поведении процесса. Формально это достигается путём отображения входного значения $x$ на двумерный вектор

$u(x)=(cos(x),sin(x)).$

Обычные ковариационные функции

Существует ряд общих ковариационных функций:^[5]

Константа: $K_{\operatorname {C} }(x,x')=C$
Линейная функция: $K_{\operatorname {L} }(x,x')=x^{T}x'$
Гауссовский шум: $K_{\operatorname {GN} }(x,x')=\sigma ^{2}\delta _{x,x'}$
Квадратичная экспоненциальная функция: $K_{\operatorname {SE} }(x,x')=\exp {\Big (}-{\frac {\|d\|^{2}}{2\ell ^{2}}}{\Big )}$
Функция Орнштейна — Уленбека: $K_{\operatorname {OU} }(x,x')=\exp \left(-{\frac {|d|}{\ell }}\right)$
Matérn: $K_{\operatorname {Matern} }(x,x')={\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Big (}{\frac {{\sqrt {2\nu }}|d|}{\ell }}{\Big )}^{\nu }K_{\nu }{\Big (}{\frac {{\sqrt {2\nu }}|d|}{\ell }}{\Big )}$
Периодическая функция: $K_{\operatorname {P} }(x,x')=\exp \left(-{\frac {2\sin ^{2}\left({\frac {d}{2}}\right)}{\ell ^{2}}}\right)$
Рациональная квадратичная функция: $K_{\operatorname {RQ} }(x,x')=(1+|d|^{2})^{-\alpha },\quad \alpha \geq 0$

Здесь $d=x-x'$ . Параметр $\ell$ является характеристикой масштаба длины процесса (практически, «насколько близко» две точки $x$ и $x'$ должны быть, чтобы значительно влиять друг на друга), $\delta$ - это символ Кронекера и $\sigma$ - среднеквадратическое отклонение колебаний шума. Кроме того, $K_{\nu }$ является модифицированной функцией Бесселя $\nu$ и $\Gamma (\nu )$ - это гамма-функция, вычисленная по $\nu$ . Сложную ковариационную функцию можно определить как линейную комбинацию других более простых ковариационных функций затем, чтобы объединить различную информацию об имеющихся наборах данных.

Полученные результаты зависят от значений гиперпараметров $\theta$ (например, $\ell$ и $\sigma$ ), определяющих поведение модели.

Броуновское движение как интеграл гауссовских процессов

Винеровский процесс (так называемое броуновское движение) является интегралом гауссовского процесса белого шума. Он не стационарен, однако имеет стационарные приращения.

Процесс Орнштейна — Уленбека — это стационарный гауссовский процесс.

Броуновский мост (подобный процессу Орнштейна — Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми.

Дробное броуновское движение является гауссовским процессом, ковариационная функция которого является обобщением функции винеровского процесса.

Приложения

Гауссовский процесс может быть использован как априорное распределение вероятностей функций в байесовском выводе.^[5]^[8] Для любого множества из N точек в нужной области функций возьмите многомерное гауссовское распределение, ковариационный матричный параметр которого является определителем Грама взятых N точек с некоторым желаемым ядром, и выборку из этого распределения.

Вывод непрерывных значений на основе гауссовского процесса, определяемого предыдущими ковариациями, известен как кригинг (регрессия на основе гауссовского процесса). Поэтому, гауссовские процессы полезны в качестве мощного нелинейного многомерного инструмента интерполяции. Регрессия на основе гауссовского процесса может быть дополнительно расширена для решения задач обучения как с учителем, так и без (самообучение).

Прогноз гауссовского процесса или кригинг

Когда речь идёт об основной проблеме регрессии на основе гауссовского процесса (кригинге), предполагается, что для гауссовского процесса $f$ , наблюдаемого в координатах $x$ , вектор значений $f(x)$ является всего лишь одной из выборок многомерного гауссовского распределения, размерность которого равна числу наблюдаемых координат $|x|$ . Следовательно, согласно допущению о нулевом распределении, $f(x)\sim N(0,K(\theta ,x,x'))$ , где $K(\theta ,x,x')$ - ковариационная матрица между всеми возможными парами $(x,x')$ для заданного множества гиперпараметров $\theta$ .^[5] Таким образом, логарифм предельной вероятности равен:

\log p(f(x)|\theta ,x)=-{\frac {1}{2}}f(x)^{T}K(\theta ,x,x')^{-1}f(x)-{\frac {1}{2}}\log \det(K(\theta ,x,x'))-{\frac {|x|}{2}}\log 2\pi

и максимизация этой предельной вероятности по отношению к $\theta$ даёт полную характеристику гауссовского процесса $f$ . Первое выражение зависит от неспособности модели соответствовать наблюдаемым значениям, а второе выражение прямо пропорционально сложности модели. Указав $\theta$ и сделав прогноз о ненаблюдаемых значениях $f(x^{*})$ в координатах $x^{*}$ , останется сделать график выборок из прогностического распределения $p(y^{*}\mid x^{*},f(x),x)=N(y^{*}\mid A,B)$ , где последующая средняя оценка $A$ определяется как

A=K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}f(x)

и последующая оценка дисперсии B определяется как

B=K(\theta ,x^{*},x^{*})-K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}K(\theta ,x^{*},x)^{T}

где $K(\theta ,x^{*},x)$ - ковариация между новой оценкой координаты $x^{*}$ и всеми другими наблюдаемыми координатами $x$ для данного гиперпараметрического вектора $\theta$ , $K(\theta ,x,x')$ и $f(x)$ определены как и прежде, а $K(\theta ,x^{*},x^{*})$ является дисперсией в точке $x^{*}$ , продиктованной вектором $\theta$ . Последующая средняя оценка $f(x^{*})$ ("точечная оценка") является линейной комбинацией наблюдений $f(x)$ ; аналогичным образом дисперсия $f(x^{*})$ фактически не зависит от наблюдений $f(x)$ . Известным узким местом в прогнозировании гауссовского процесса является то, что вычислительная сложность прогнозирования является кубической по числу точек $|x|$ , то есть вычисление может быть невозможным для больших наборов данных.^[4] Чтобы обойти эту проблему, ведутся работы по разреженным гауссовским процессам, которые обычно основаны на идее построения репрезентативного набора для данного процесса $f$ .^[9]^[10]

См. также

Примечания

↑ Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool) (неопр.). Дата обращения: 15 января 2018. Архивировано 1 мая 2018 года.
↑ MacKay, David, J.C.^[англ.]. Information Theory, Inference, and Learning Algorithms (англ.). — Cambridge University Press, 2003. — P. 540. — ISBN 9780521642989. Архивировано 19 октября 2016 года.. — «"The probability distribution of a function $y(\mathbf {x} )$ is a Gaussian processes if for any finite selection of points $\mathbf {x} ^{(1)},\mathbf {x} ^{(2)},\ldots ,\mathbf {x} ^{(N)}$ , the density $P(y(\mathbf {x} ^{(1)}),y(\mathbf {x} ^{(2)}),\ldots ,y(\mathbf {x} ^{(N)}))$ is a Gaussian"».
↑ Dudley, R.M. Real Analysis and Probability. — Wadsworth and Brooks/Cole, 1989.
↑ ¹ ² ³ ⁴ Barber, David. Bayesian Reasoning and Machine Learning. — Cambridge University Press, 2012. — ISBN 978-0-521-51814-7. Архивировано 11 ноября 2020 года.
↑
MIT Press, 2006. — ISBN 0-262-18253-X. Архивировано
22 мая 2021 года.

↑ Grimmett, Geoffrey; David Stirzaker. Probability and Random Processes (англ.). — Oxford University Press, 2001. — ISBN 0198572220.
↑ The documentation for scikit-learn also has similar examples Архивная копия от 19 апреля 2021 на Wayback Machine.
↑ Архивированная копия (англ.). Дата обращения: 15 января 2018. Архивировано из оригинала 4 марта 2016 года.Архивированная копия (неопр.). Дата обращения: 15 января 2018. Архивировано из оригинала 4 марта 2016 года.
↑ Smola, A.J.; Schoellkopf, B. Sparse greedy matrix approximation for machine learning (англ.) // Proceedings of the Seventeenth International Conference on Machine Learning : journal. — 2000. — P. 911—918.
doi:10.1162/089976602317250933
.

Внешние ссылки

Программное обеспечение

STK: a Small (Matlab/Octave) Toolbox for Kriging and GP modeling
Kriging module in UQLab framework (Matlab)
Matlab/Octave function for stationary Gaussian fields
Yelp MOE – A black box optimization engine using Gaussian process learning
ooDACE – A flexible object-oriented Kriging matlab toolbox.
GPstuff – Gaussian process toolbox for Matlab and Octave
GPy – A Gaussian processes framework in Python
Interactive Gaussian process regression demo
Basic Gaussian process library written in C++11
scikit-learn – A machine learning library for Python which includes Gaussian process regression and classification
[1] - The Kriging toolKit (KriKit) is developed at the Institute of Bio- and Geosciences 1 (IBG-1) of Forschungszentrum Jülich (FZJ)

[1] Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool) (неопр.). Дата обращения: 15 января 2018. Архивировано 1 мая 2018 года.

[DrMacKayGPNN-2] MacKay, David, J.C.^[англ.]. Information Theory, Inference, and Learning Algorithms (англ.). — Cambridge University Press, 2003. — P. 540. — ISBN 9780521642989. Архивировано 19 октября 2016 года.. — «"The probability distribution of a function $y(\mathbf {x} )$ is a Gaussian processes if for any finite selection of points $\mathbf {x} ^{(1)},\mathbf {x} ^{(2)},\ldots ,\mathbf {x} ^{(N)}$ , the density $P(y(\mathbf {x} ^{(1)}),y(\mathbf {x} ^{(2)}),\ldots ,y(\mathbf {x} ^{(N)}))$ is a Gaussian"».

[3] Dudley, R.M. Real Analysis and Probability. — Wadsworth and Brooks/Cole, 1989.

[brml-4] ¹ ² ³ ⁴ Barber, David. Bayesian Reasoning and Machine Learning. — Cambridge University Press, 2012. — ISBN 978-0-521-51814-7. Архивировано 11 ноября 2020 года.

[gpml-5] 
MIT Press, 2006. — ISBN 0-262-18253-X. Архивировано
22 мая 2021 года.

[PRP-6] Grimmett, Geoffrey; David Stirzaker. Probability and Random Processes (англ.). — Oxford University Press, 2001. — ISBN 0198572220.

[7] The documentation for scikit-learn also has similar examples Архивная копия от 19 апреля 2021 на Wayback Machine.

[8] Архивированная копия (англ.). Дата обращения: 15 января 2018. Архивировано из оригинала 4 марта 2016 года.Архивированная копия (неопр.). Дата обращения: 15 января 2018. Архивировано из оригинала 4 марта 2016 года.

[smolaSparse-9] Smola, A.J.; Schoellkopf, B. Sparse greedy matrix approximation for machine learning (англ.) // Proceedings of the Seventeenth International Conference on Machine Learning : journal. — 2000. — P. 911—918.

[CsatoSparse-10] :10.1162/089976602317250933
.

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]