Ансамблевое обучение

Ансамблевое обучение — техника машинного обучения, использующая несколько обученных алгоритмов с целью получения лучшей предсказательной эффективности^[англ.], чем можно было бы получить от каждого алгоритма по отдельности^[1]^[2]^[3]. В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль моделей в машинном обучении состоит из конкретного конечного множества альтернативных моделей, но обычно позволяет существовать гораздо более гибким структурам.

Алгоритмы обучения с учителем наиболее часто описываются как решение задачи поиска в пространстве гипотез подходящей гипотезы — позволяющей делать хорошие предсказания для конкретной задачи. Но поиск хорошей гипотезы может оказаться трудной задачей. Ансамбль использует комбинацию нескольких гипотез в надежде, что она окажется лучше, чем гипотезы по отдельности. Термин «ансамбль» обычно резервируется для методов, которые генерируют несколько гипотез с помощью одного и того же базового учителя^[что?]. Более широкое понятие системы множественных классификаторов также использует несколько гипотез, но сгенерированных не с помощью одного и того же учителя^{[источник не указан 1114 дней]}.

Вычисление предсказания ансамбля обычно требует больше вычислений, чем предсказание одной модели, так что ансамбли можно рассматривать как способ компенсации плохого алгоритма обучения путём дополнительных вычислений. В ансамбле моделей обычно используются быстрые алгоритмы, такие как

случайные леса

), хотя медленные алгоритмы могут получить также преимущества от техники сборки в ансамбль.

По аналогии, техника сборки в ансамбль используется также и в сценариях обучения без учителя, например, в кластеризации на основе согласия^[англ.] или в выявлении аномалий.

Теория сборки в ансамбль

Ансамбль сам по себе является алгоритмом обучения с учителем, поскольку он может быть тренирован и затем использован для осуществления предсказания. Тренированный ансамбль, поэтому, представляет одну гипотезу. Эта гипотеза, однако, не обязательно лежит в пространстве гипотез моделей, из которых она построена. Таким образом, ансамбли могут иметь большую гибкость в функциях, которые они могут представлять. Эта гибкость может, в теории, быстрее привести их к переобучению по тренировочным данным, чем могло быть в случае отдельной модели, но, на практике, некоторые техники сборки в ансамбль (особенно бэггинг) склонны уменьшить проблемы, связанные с переобучением на тренировочных данных.

Эмпирически ансамбли склонны давать результаты лучше, если имеется существенное отличие моделей^[4]^[5]. Многие ансамбли поэтому стараются повысить различие в моделях, которые они комбинируют^[6]^[7]. Хотя, возможно, неинтуитивные, более случайные алгоритмы (подобные случайным деревьям решений) могут быть использованы для получения более строгих ансамблей, чем продуманные алгоритмы (такие как деревья решений с уменьшением энтропии)^[8]. Использование различных алгоритмов строгого обучения, однако, как было показано, более эффективно, чем использование техник, которые пытаются упростить модели с целью обеспечить большее различие^[9].

Размер ансамбля

В то время как число классификаторов в ансамбле имеют большое влияние на точность предсказания, имеется лишь ограниченное число статей, изучающих эту проблему. Определение априори размера ансамбля и размеров скорости больших потоков данных делает этот фактор даже более критичным для онлайновых ансамблей классификаторов. Большинство статистических тестов были использованы для определения подходящего числа компонент. Относительно недавно теоретический фреймворк дал повод предположить, что имеется идеальное число классификаторов ансамбля, такое, что число классификаторов больше или меньше этого идеального числа приводит к ухудшению точности. Это называется «законом убывания отдачи в построении ансамбля». Этот теоретический фреймворк показывает, что использование числа независимых классификаторов, равного числу меток класса, даёт наибольшую точность^[10]^[11].

Часто используемые типы ансамблей

Байесовский оптимальный классификатор

Байесовский оптимальный классификатор — это техника классификации. Он является ансамблем всех гипотез из пространства гипотез. В среднем ни один из ансамблей не может превосходить его^[12]. Простой байесовский оптимальный классификатор — это версия, которая предполагает, что данные условно независимы от класса, и выполняет вычисления за более реальное время. Каждой гипотезе даётся голос, пропорциональный вероятности того, что тренировочные данные будут выбраны из системы, если гипотеза была бы верна. Для получения тренировочных данных конечного размера голос каждой гипотезы умножается на априорную вероятность такой гипотезы. Байесовский оптимальный классификатор можно выразить следующим равенством:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

,

где $y$ предсказанный класс, $C$ является множеством всех возможных классов, $H$ является классом гипотез, $P$ относится к вероятности, а $T$ является тренировочными данными. Как ансамбль байесовский оптимальный классификатор представляет гипотезу, которая не обязательно принадлежит в $H$ . Гипотеза, представленная байесовским оптимальным классификатором, однако, является оптимальной гипотезой в пространстве ансамблей (пространство всех возможных ансамблей, состоящих только из гипотез пространства $H$ ).

Формулу можно переписать с помощью теоремы Байеса, которая гласит, что постериорная вероятность пропорциональна априорной вероятности:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

откуда

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}

Бэггинг

Бутстрэп-агрегирование, часто сокращаемое до бэггинг, даёт каждой модели в ансамбле одинаковый вес (голос). Чтобы поддерживать вариантность, бэггинг тренирует каждую модель в ансамбле с помощью случайно отобранного подмножества из тренировочного множества. Как пример, алгоритм «

случайного леса» комбинирует случайные деревья решений с бэггингом, чтобы получить высокую точность классификации^[13]

.

Бустинг

Бустинг строит ансамбль последовательными приращениями путём тренировки каждой новой модели, чтобы выделить тренировочные экземпляры, которые предыдущие модели классифицировали ошибочно. В некоторых случаях бустинг, как было показано, даёт лучшие результаты, чем бэггинг, но имеет тенденцию к переобучению на тренировочных данных. Наиболее частой реализацией бустинга является алгоритм AdaBoost, хотя есть утверждения, что некоторые более новые алгоритмы дают лучшие результаты.

Усреднение байесовских параметров

Усреднение байесовских параметров (англ. Bayesian parameter averaging, BPA) — это техника сборки ансамбля, которая пытается аппроксимировать байесовский оптимальный классификатор путём семплинга из пространства гипотез и комбинирования их с помощью закона Байеса^[14]. В отличие от байесовского оптимального классификатора, байесовская модель усреднения может быть практически реализована. Гипотезы обычно отбираются с помощью техники Монте-Карло, такой как MCMC^[англ.]. Например, может быть использовано семплирование по Гиббсу для выборки гипотез, которые представляют распределение $P(T|H)$ . Было показано, что при некоторых обстоятельствах, если гипотезы выбираются таким образом и усредняются согласно закону Байеса, эта техника имеет ожидаемую ошибку, которая ограничена удвоенной ожидаемой ошибки байесовского оптимального классификатора^[15]. Несмотря на теоретическую корректность этой техники, в ранних работах на основе экспериментальных данных было высказано предположение, что метод склонен к переобучению и ведёт себя хуже, чем простые техники сборки ансамбля, такие как бэггинг^[16]. Однако эти заключения были основаны на недопонимании цели байесовской модели усреднения для комбинации моделей^[17]. Кроме того, есть существенные преимущества в теории и практике БМУ. Недавние строгие доказательства показывают точность БМУ для выбора переменных и оценке при многомерных условиях^[18] и дают эмпирическое свидетельство существенной роли обеспечения разреженности в БМУ в смягчении переобучения^[19].

Комбинация байесовских моделей

Комбинация байесовских моделей (КБМ, англ. Bayesian model combination, BMC) — это алгоритмическое исправление байесовской модели усреднения (БМУ, англ. Bayesian model averaging, BMA). Вместо выбора каждой модели в ансамбль индивидуально, алгоритм отбирает из пространства возможных ансамблей (с весами моделей, выбранных случайно из распределения Дирихле с однородными параметрами). Эта модификация позволяет избежать тенденцию БМУ отдать полный вес одной модели. Хотя КБМ вычислительно несколько более расточителен по сравнению с БМУ, он даёт существенно лучшие результаты. Результаты КБМ, как было показано, в среднем лучше, чем БМУ и бэггинг^[20].

Использование закона Байеса для вычисления весов модели неизбежно влечёт вычисление вероятности данных для каждой модели. Обычно ни одна из моделей в ансамбле не имеет точно такое же распределение, что и тренировочные данные, из которых они сгенерированы, так что все члены корректно получают значение, близкое к нулю. Это хорошо бы работало, если бы ансамбль был достаточно большим для выборки из полного пространства моделей, но такое редко случается возможным. Следовательно, каждый представитель тренировочного набора вызывает вес ансамбля сдвигаться к модели в ансамбле, которая наиболее близка к распределению тренировочных данных. Это существенно уменьшает необходимость чрезмерно сложного метода выбора модели.

Возможные веса для ансамбля можно представить как лежащие на симплексе. На каждой вершине симплекса все веса задаются отдельной моделью ансамбля. БМУ сходится к вершине, которая ближе по распределению с тренировочными данными. Для контраста, КБМ сходится к точке, где это распределение проектируется в симплекс. Другими словами, вместо выбора одной модели, которая ближе всего к распределению, метод ищет комбинацию моделей, наиболее близкой к распределению.

Результаты БМУ можно часто аппроксимировать с помощью перекрёстной проверки для выбора модели из ведра моделей. Аналогично, результаты КБМ можно аппроксимировать с помощью перекрёстной проверки для выбора лучшей комбинации ансамблей из случайной выборки возможных весов.

Ведро моделей

«Ведро моделей» (англ. bucket of models) является техникой сбора ансамбля, в которой используется алгоритм выбора модели для получения лучшей модели для каждой задачи. Когда тестируется только одна задача, ведро моделей не может дать результат лучше, чем лучшая модель в наборе, однако в случае прогона для нескольких задач, алгоритм обычно даёт более хорошие результаты, чем любая модель в наборе.

Наиболее частый подход, используемый для выбора модели,— это перекрёстная выборка. Он описывается следующим псевдокодом:

Для каждой модели в ведре:
  Выполнить c раз: (где 'c' — некоторая константа)
    Случайным образом делим тренировочные данные на два набора: A и B.
    Тренируем m по A
    Проверяем m по B
Выбираем модель, которая покажет высший средний результат

Перекрёстная выборка может быть описана как: «прогони все на тренировочном множестве и выбери тот, что работает лучше»^[21].

Выделение (англ. Gating) является обобщением перекрёстной выборки. Метод вовлекает тренировку другой модели обучения для решения, какая из моделей в ведре больше подходит для решения задачи. Часто для выделения модели используется перцептрон. Он может быть использован для выбора «лучшей» модели, или он может быть использован для получения линейного веса для предсказаний из каждой модели в ведре.

Когда ведро моделей используется с большим набором задач, может быть желательным избежать тренировки некоторых моделей, которые требуют долгого времени тренировки. Ландмарк-обучение — это метаобучающий подход, который ищет решение этой задачи. Он вовлекает для тренировки только быстрые (но неточные) алгоритмы, а затем используется эффективность этих алгоритмов для определения, какой из медленных (но точных) алгоритмов выбрать как лучший^[22].

Стогование

Стогование (иногда называемое стековое обобщение) вовлекает тренировку обучающего алгоритма для комбинирования предсказаний нескольких других обучающих алгоритмов. Сначала все другие алгоритмы тренируются с помощью допустимых данных, затем алгоритмы комбинирования тренируются с целью сделать конечное предсказание с помощью всех предсказаний других алгоритмов как дополнительный вход. Если используется произвольный алгоритм комбинирования, то стогование может теоретически представлять любую технику создания ансамблей, описанную в этой статье, хотя, на практике, модель логистической регрессии часто используется в качестве средства алгоритма комбинирования.

Стогование обычно даёт лучшую эффективность, чем любая отдельная из тренировочных моделей^[23]. Оно было успешно использовано как в задачах обучения с учителем (регрессии^[24], классификации и дистанционного обучения^[25]), так и задачах обучения без учителя (оценка плотности)^[26]. Он использовался также для оценки ошибки бэггинга^[3]^[27]. Утверждалось, что метод превзошёл байесовскую модель усреднения^[28]. Два призёра конкурса Netflix используют смешивание, которое можно считать формой стогования^[29].

Реализация в статистических пакетах

R: по мешьшей мере три пакета предлагают средства для байесовской модели усреднения^[30], включая пакет BMS (сокращение от Bayesian Model Selection)^[31], пакет BAS (сокращение от Bayesian Adaptive Sampling)^[32] и пакет BMA^[33]. Пакет H2O предлагает большое число моделей обучении машин, включая модель сборки ансамбля, которая может быть тренирована с помощью Spark.
Python: Scikit-learn, пакет для машинного обучения на языке Python, предлагает пакеты для обучения ансамблей, включая пакеты для бэггинга и методов усреднения.
MATLAB: ансамбли классификаторов реализованы в наборе средств Statistics и Machine Learning^[34].

Приложения обучения с помощью ансамблей

В недавние годы, вследствие растущей вычислительной мощности, позволяющей тренировку больших тренировочных обучающих ансамблей в разумное время, число приложений росло всё быстрее^[35]. Некоторые из приложений ансамблей классификаторов приведены ниже.

Дистанционное зондирование Земли

Отражение растительного покрова

растительного покрова

.

Обнаружение изменений

растительный покров изменился с течением времени. Обнаружение изменений^[англ.] широко используется в таких областях, как рост городов^[англ.], динамика изменений в лесах и растительности^[англ.], землепользование и обнаружение стихийных бедствий^[англ.]^[41]

. Ранние приложения ансамблей классификаторов в определении изменений разрабатывались с помощью голосования большинством голосов^[англ.], байесовского среднего^[англ.] и оценки апостериорного максимума^[42].

Защита компьютера

DoS-атака

Распределенная атака типа отказа в обслуживании является одной и самых угрожающих кибератак, которая может случаться с интернет-провайдером^[35]. Путём комбинирования выхода отдельных классификаторов ансамбль классификаторов снижает общую ошибку детектирования и отделения таких атак от законных флешмобов^[43].

Обнаружение вредоносных программ

Классификация кодов

вирусы-вымогатели и программы-шпионы, с помощью техник машинного обучения, навеяна задачей категоризации документов^[44]. Системы обучения ансамблей показали надёжную эффективность в этой области^[45]^[46]

.

Обнаружение вторжения

Система обнаружения вторжений отслеживает для идентификации кодов вторжения компьютерную сеть или компьютеры подобно процессу выявления аномалий. Обучение ансамблей успешно помогает таким системам сокращать общее число ошибок^[47]^[48].

Распознавание лиц

Распознавание лиц, которое недавно стало наиболее популярной областью исследований в распознавания образов, справляется с идентификацией или верификацией личности по его/её цифровому изображению^[49].

Иерархические ансамбли, основанные на классификаторе Габора Фишера и техниках предварительной обработки данных при анализе независимых компонентов^[англ.], являются некоторыми ранними ансамблями, используемыми в этой области^[50]^[51]^[52].

Распознавание эмоций

В то время как распознавание речи главным образом основывается на глубоком обучении, поскольку большинство индустриальных игроков в этой области, такие как Google, Microsoft и IBM, используют его в качестве основы технологии распознавания речи, основанное на разговоре распознавание эмоций^[англ.] может иметь удовлетворительные показатели с обучением ансамбля^[53]^[54].

Метод также успешно использовался в распознавании эмоций на лице^[55]^[56]^[57].

Выявление мошенничества

Выявление мошенничества имеет дело с идентификацией банковского мошенничества^[англ.], такого как отмывание денег, мошенничество с платежными картами и телекоммуникационное мошенничество. Выявление мошенничества имеет широкие возможности для исследования и применения машинного обучения. Поскольку обучение ансамбля улучшает устойчивость нормального поведения моделирования, оно было предложено в качестве эффективной техники определения таких случаев мошенничества и подозрительной активности в банковских операциях в системах кредитных карт^[58]^[59].

Принятие финансовых решений

Точность предсказания коммерческого краха является важнейшим вопросом при принятии финансовых решений, поэтому были предложены различные ансамбли классификаторов для предсказания

ценами акций^[60]

.

Медицина

Система классификаторов успешно применена в нейронауках, протеомике и медицинской диагностике, таких как распознавание нейрокогнитивных расстройств^[англ.] (то есть болезни Альцгеймера или миотонической дистрофии^[англ.]) основанного на данных магнитно-резонансной томографии^[61]^[62]^[63] или классификация цитологии шейки матки на основе микроскопии^[64]^[65].

См. также

Примечания

↑ Opitz, Maclin, 1999, с. 169—198.
↑ Polikar, 2006, с. 21—45.
↑ ¹ ² Rokach, 2010, с. 1—39.
↑ Kuncheva, Whitaker, 2003, с. 181—207.
↑ Sollich, Krogh, 1996, с. 190—196, 1996.
↑ Brown, Wyatt, Harris, Yao, 2005, с. 5—20.
↑ Adeva, Cerviño, Calvo, 2005.
↑ Ho, 1995, с. 278—282.
↑ Gashler, Giraud-Carrier, Martinez, 2008, с. 900—905.
↑ Bonab, Can, 2016, с. 2053.
↑ Bonab, Can, 2017.
↑ Mitchell, 1997, с. 175.
↑ Breiman, 1996, с. 123—140.
↑ Hoeting, Madigan, Raftery, Volinsky, 1999, с. 382–401.
↑ Haussler, Kearns, Schapire, 1994, с. 83–113.
↑ Domingos, 2000, с. 223–-230.
↑ Minka, 2002.
↑ Castillo, Schmidt-Hieber, van der Vaart, 2015, с. 1986–2018.
↑ Hernández-Lobato, Hernández-Lobato, Dupont, 2013, с. 1891–1945.
↑ Monteith, Carroll, Seppi, Martinez, 2011, с. 2657—2663.
↑ Dzeroski, Zenko, 2004, с. 255—273.
↑ Bensusan, Giraud-Carrier, 2000, с. 325—330.
↑ Wolpert, 1992, с. 241—259.
↑ Breiman, 1996.
↑ Ozay, Vural, 2013.
↑ Smyth, Wolpert, 1999, с. 59—83.
↑ Wolpert, Macready, 1999, с. 41—55.
↑ Clarke, 2003, с. 683—712.
↑ Sill, Takacs, Mackey, Lin, 2009.
↑ Amini, Parmeter, 2011, с. 253–287.
↑ BMS: Bayesian Model Averaging Library (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 28 ноября 2020 года.
↑ BAS: Bayesian Model Averaging using Bayesian Adaptive Sampling (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 7 октября 2020 года.
↑ BMA: Bayesian Model Averaging (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 7 мая 2021 года.
↑ Classification Ensembles (неопр.). MATLAB & Simulink. Дата обращения: 8 июня 2017. Архивировано 1 декабря 2020 года.
↑ ¹ ² Woźniak, Graña, Corchado, 2014, с. 3–17.
↑ ¹ ² Rodriguez-Galiano, Ghimire, Rogan и др., 2012, с. 93–104.
↑ Giacinto, Roli, 2001, с. 699–707.
↑ Xia, Yokoya, Iwasaki, 2017, с. 6185—6189.
↑ Mochizuki, Murakami, 2012, с. 126—133.
↑ Giacinto, Roli, Fumera, 2000, с. 160—163.
↑ Du, Liu, Xia, Zhao, 2013, с. 19–27.
↑ Bruzzone, Cossu, Vernazza, 2002, с. 289–297.
↑ Raj Kumar, Selvakumar, 2011, с. 1328–1341.
↑ Shabtai, Moskovitch, Elovici, Glezer, 2009, с. 16–29.
↑ Zhang, Yin, Hao, Zhang, Wang, 2007, с. 468—477.
↑ Menahem, Shabtai, Rokach, Elovici, 2009, с. 1483–1494.
↑ Locasto, Wang, Keromytis, Salvatore, 2005, с. 82—101.
↑ Giacinto, Perdisci, Del Rio, Roli, 2008, с. 69–82.
↑ Mu, Lu, Watta, Hassoun, 2009.
↑ Yu, Shan, Chen, Gao, 2006, с. 91—96.
↑ Yu, Shan, Chen, Gao, 2006, с. 528—531.
↑ Liu, Lin, Chen, 2008, с. 144—148.
↑ Rieger, Muraleedharan, Ramachandran, 2014, с. 589—593.
↑ Krajewski, Batliner, Kessel, 2010, с. 3716—3719.
↑ Rani, Muneeswaran, 2016, с. 10017–10040.
↑ Rani, Muneeswaran, 2016, с. 1655020.
↑ Rani, Muneeswaran, 2018.
↑ Louzada, Ara, 2012, с. 11583–11592.
↑ Sundarkumar, Ravi, 2015, с. 368–377.
↑ ¹ ² Kim, Sohn, 2012, с. 8986–8992.
↑ Savio, García-Sebastián, Chyzyk и др., 2011, с. 600–610.
↑ Ayerdi, Savio, Graña, 2013, с. 122—130.
↑ Gu, Ding, Zhang, 2015, с. 110–118.
doi:10.1109/ACCESS.2020.2999816. Архивировано
31 августа 2021 года.

doi:10.1038/s41598-021-93783-8. Архивировано
31 августа 2021 года.

Литература

Opitz D., Maclin R. Popular ensemble methods: An empirical study //
doi:10.1613/jair.614
.

Polikar R. Ensemble based systems in decision making // IEEE Circuits and Systems Magazine. — 2006. — Т. 6, вып. 3. — С. 21—45. —
doi:10.1109/MCAS.2006.1688199
.

Rokach L. Ensemble-based classifiers // Artificial Intelligence Review. — 2010. — Т. 33, вып. 1—2. —
doi:10.1007/s10462-009-9124-7
.

Kuncheva L., Whitaker C. Measures of diversity in classifier ensembles and Their Relationship with the Ensemble Accuracy // Machine Learning. — 2003. — Т. 51, вып. 2.

Sollich P., Krogh A. Learning with ensembles: How overfitting can be useful // Advances in Neural Information Processing Systems. — 1996. — Т. 8.

Brown G., Wyatt J., Harris R., Yao X. Diversity creation methods: a survey and categorization // Information Fusion. — 2005. — Т. 6, вып. 1.

J. J. García Adeva, Ulises Cerviño, R. Calvo. Accuracy and Diversity in Ensembles of Text Categorisers // CLEI Journal. — 2005. — Декабрь (т. 8, вып. 2). Архивировано 7 июля 2011 года.
Ho T. Random Decision Forests // Proceedings of the Third International Conference on Document Analysis and Recognition. — 1995.
Gashler M., Giraud-Carrier C., Martinez T. Decision Tree Ensemble: Small Heterogeneous Is Better Than Large Homogeneous // The Seventh International Conference on Machine Learning and Applications. — 2008. —
doi:10.1109/ICMLA.2008.154
.

Hamed R. Bonab, Fazli Can. A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams // 25th Conference on Information and Knowledge Management. — USA: ACM, 2016. —
doi:10.1145/2983323.2983907
.

Hamed R. Bonab, Fazli Can. Less Is More: A Comprehensive Framework for the Number of Components of Ensemble Classifiers // IEEE Transactions on Neural Networks and Learning Systems 2017. — USA: IEEE, 2017.
Tom M. Mitchell. Machine Learning. — McGraw-Hill Science/Engeneering/Math, 1997. — ISBN 0070428077.
Breiman, L. Bagging Predictors // Machine Learning. — 1996. — Т. 24, вып. 2.
Hoeting J. A., Madigan D., Raftery A. E., Volinsky C. T. Bayesian Model Averaging: A Tutorial // Statistical Science. — 1999. — Т. 14, вып. 4. —
doi:10.2307/2676803. — JSTOR 2676803
.

David Haussler, Michael Kearns, Robert E. Schapire. Bounds on the sample complexity of Bayesian learning using information theory and the VC dimension // Machine Learning. — 1994. — Т. 14.

Pedro Domingos. Bayesian averaging of classifiers and the overfitting problem // Proceedings of the 17th International Conference on Machine Learning (ICML). — 2000. — С. 223——230.
Thomas Minka. Bayesian model averaging is not model combination. — 2002.
Castillo I., Schmidt-Hieber J., van der Vaart A. Bayesian linear regression with sparse priors //
doi:10.1214/15-AOS1334. — arXiv:1403.0735
.

Hernández-Lobato D., Hernández-Lobato J. M., Dupont P. Generalized Spike-and-Slab Priors for Bayesian Group Feature Selection Using Expectation Propagation // Journal of Machine Learning Research. — 2013. — Т. 14.
Turning Bayesian Model Averaging into Bayesian Model Combination // Proceedings of the International Joint Conference on Neural Networks IJCNN'11. — 2011. — С. 2657—2663.
Saso Dzeroski, Bernard Zenko. Is Combining Classifiers Better than Selecting the Best One // Machine Learning. — 2004.
Hilan Bensusan, Christophe G. Giraud-Carrier. Discovering Task Neighbourhoods Through Landmark Learning Performances // PKDD '00: Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery. — Springer-Verlag, 2000.
Smyth P., Wolpert D. H. Linearly Combining Density Estimators via Stacking // Machine Learning Journal. — 1999. — Т. 36.
Wolpert D.H., Macready W.G. An Efficient Method to Estimate Bagging’s Generalization Error // Machine Learning Journal. — 1999. — Т. 35.
Clarke B. Bayes model averaging and stacking when model approximation error cannot be ignored // Journal of Machine Learning Research. — 2003.
Wolpert D. Stacked Generalization // Neural Networks. — 1992. — Т. 5, вып. 2.
Breiman L. Stacked Regression // Machine Learning. — 1996. — Т. 24. —
doi:10.1007/BF00117832
.

Ozay M., Yarman Vural F. T. A New Fuzzy Stacked Generalization Technique and Analysis of its Performance. — 2013. — Bibcode: 2012arXiv1204.0171O. — arXiv:1204.0171.
Sill J., Takacs G., Mackey L., Lin D. Feature-Weighted Linear Stacking. — 2009. — Bibcode: 2009arXiv0911.0460S. — arXiv:0911.0460.
Shahram M. Amini, Christopher F. Parmeter. Bayesian model averaging in R // Journal of Economic and Social Measurement. — 2011. — Т. 36, вып. 4.
Michał Woźniak, Manuel Graña, Emilio Corchado. A survey of multiple classifier systems as hybrid systems // Information Fusion. — 2014. — Март (т. 16). —
doi:10.1016/j.inffus.2013.04.006
.

Rodriguez-Galiano V.F., Ghimire B., Rogan J., Chica-Olmo, M., Rigol-Sanchez J.P. An assessment of the effectiveness of a random forest classifier for land-cover classification // ISPRS Journal of Photogrammetry and Remote Sensing. — 2012. — Т. 67. —
doi:10.1016/j.isprsjprs.2011.11.002. — Bibcode: 2012JPRS...67...93R
.

Giorgio Giacinto, Fabio Roli. Design of effective neural network ensembles for image classification purposes // Image and Vision Computing. — 2001. — Август (т. 19, вып. 9—10). —
doi:10.1016/S0262-8856(01)00045-2
.

Junshi Xia, Naoto Yokoya, Yakira Iwasaki. A novel ensemble classifier of hyperspectral and LiDAR data using morphological features // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2017. — Март. —
doi:10.1109/ICASSP.2017.7953345
.

Mochizuki S., Murakami T. Accuracy comparison of land cover mapping using the object-oriented image classification with machine learning algorithms // 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. — 2012. — Ноябрь (т. 1).

Giacinto G., Roli F., Fumera G. Design of effective multiple classifier systems by clustering of classifiers // Proceedings 15th International Conference on Pattern Recognition. ICPR-2000. — 2000. — Сентябрь. —
doi:10.1109/ICPR.2000.906039
.

Peijun Du, Sicong Liu, Junshi Xia, Yindi Zhao. Information fusion techniques for change detection from multi-temporal remote sensing images // Information Fusion. — 2013. — Январь (т. 14, вып. 1). —
doi:10.1016/j.inffus.2012.05.003
.

Lorenzo Bruzzone, Roberto Cossu, Gianni Vernazza. Combining parametric and non-parametric algorithms for a partially unsupervised classification of multitemporal remote-sensing images // Information Fusion. — 2002. — Декабрь (т. 3, вып. 4). —
doi:10.1016/S1566-2535(02)00091-X
.

P. Arun Raj Kumar, S. Selvakumar. Distributed denial of service attack detection using an ensemble of neural classifier // Computer Communications. — 2011. — Июль (т. 34, вып. 11). —
doi:10.1016/j.comcom.2011.01.012
.

Asaf Shabtai, Robert Moskovitch, Yuval Elovici, Chanan Glezer. Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey // Information Security Technical Report. — 2009. — Февраль (т. 14, вып. 1). —
doi:10.1016/j.istr.2009.03.003
.

Boyun Zhang, Jianping Yin, Jingbo Hao, Dingxing Zhang, Shulin Wang. Malicious Codes Detection Based on Ensemble Learning // Autonomic and Trusted Computing. — 2007. —
doi:10.1007/978-3-540-73547-2_48
.

Eitan Menahem, Asaf Shabtai, Lior Rokach, Yuval Elovici. Improving malware detection by applying multi-inducer ensemble // Computational Statistics & Data Analysis. — 2009. — Февраль (т. 53, вып. 4). —
doi:10.1016/j.csda.2008.10.015
.

Michael E. Locasto, Ke Wang, Angeles D. Keromytis, J. Stolfo Salvatore. FLIPS: Hybrid Adaptive Intrusion Prevention // Recent Advances in Intrusion Detection. — 2005. —
doi:10.1007/11663812_5
.

Giorgio Giacinto, Roberto Perdisci, Mauro Del Rio, Fabio Roli. Intrusion detection in computer networks by a modular ensemble of one-class classifiers // Information Fusion. — 2008. — Январь (т. 9, вып. 1). —
doi:10.1016/j.inffus.2006.10.002
.

Xiaoyan Mu, Jiangfeng Lu, Paul Watta, Mohamad H. Hassoun. Weighted voting-based ensemble classifiers with application to human face recognition and voice recognition // 2009 International Joint Conference on Neural Networks. — 2009. — Июль. —
doi:10.1109/IJCNN.2009.5178708
.

Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Hierarchical ensemble of Gabor Fisher classifier for face recognition // Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). — 2006. — Апрель. —
doi:10.1109/FGR.2006.64
.

Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Patch-based gabor fisher classifier for face recognition // Proceedings - International Conference on Pattern Recognition. — 2006. — Сентябрь (т. 2). —
doi:10.1109/ICPR.2006.917
.

Yang Liu, Yongzheng Lin, Yuehui Chen. Ensemble Classification Based on ICA for Face Recognition // Proceedings - 1st International Congress on Image and Signal Processing, IEEE Conference, CISP 2008. — 2008. — Июль. —
doi:10.1109/CISP.2008.581
.

Steven A. Rieger, Rajani Muraleedharan, Ravi P. Ramachandran. Speech based emotion recognition using spectral feature extraction and an ensemble of kNN classifiers // Proceedings of the 9th International Symposium on Chinese Spoken Language Processing, ISCSLP 2014. — 2014. —
doi:10.1109/ISCSLP.2014.6936711
.

Jarek Krajewski, Anton Batliner, Silke Kessel. Comparing Multiple Classifiers for Speech-Based Detection of Self-Confidence - A Pilot Study // 20th International Conference on Pattern Recognition. — 2010. —
doi:10.1109/ICPR.2010.905
.

P. Ithaya Rani, K. Muneeswaran. Recognize the facial emotion in video sequences using eye and mouth temporal Gabor features // Multimedia Tools and Applications. — 2016. — Май (т. 76, вып. 7). —
doi:10.1007/s11042-016-3592-y
.

P. Ithaya Rani, K. Muneeswaran. Facial Emotion Recognition Based on Eye and Mouth Regions // International Journal of Pattern Recognition and Artificial Intelligence. — 2016. — Август (т. 30, вып. 07). —
doi:10.1142/S021800141655020X
.

P. Ithaya Rani, K. Muneeswaran. Emotion recognition based on facial components // Sādhanā. — 2018. — Март (т. 43, вып. 3). —
doi:10.1007/s12046-018-0801-6
.

Francisco Louzada, Anderson Ara. Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool // Expert Systems with Applications. — 2012. — Октябрь (т. 39, вып. 14). —
doi:10.1016/j.eswa.2012.04.024
.

G. Ganesh Sundarkumar, Vadlamani Ravi. A novel hybrid undersampling method for mining unbalanced datasets in banking and insurance // Engineering Applications of Artificial Intelligence. — 2015. — Январь (т. 37). —
doi:10.1016/j.engappai.2014.09.019
.

Yoonseong Kim, So Young Sohn. Stock fraud detection using peer group analysis // Expert Systems with Applications. — 2012. — Август (т. 39, вып. 10). —
doi:10.1016/j.eswa.2012.02.025
.

Yoonseong Kim, So Young Sohn. Stock fraud detection using peer group analysis // Expert Systems with Applications. — 2012. — Август (т. 39, вып. 10). —
doi:10.1016/j.eswa.2012.02.025
.

Savio A., García-Sebastián M.T., Chyzyk D., Hernandez C., Graña M., Sistiaga A., López de Munain A., Villanúa J. Neurocognitive disorder detection based on feature vectors extracted from VBM analysis of structural MRI // Computers in Biology and Medicine. — 2011. — Август (т. 41, вып. 8). —
doi:10.1016/j.compbiomed.2011.05.010
.

Ayerdi B., Savio A., Graña M. Meta-ensembles of classifiers for Alzheimer's disease detection using independent ROI features // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). — 2013. — Июнь (вып. Part 2). —
doi:10.1007/978-3-642-38622-0_13
.

Quan Gu, Yong-Sheng Ding, Tong-Liang Zhang. An ensemble classifier based prediction of G-protein-coupled receptor classes in low homology // Neurocomputing. — 2015. — Апрель (т. 154). —
doi:10.1016/j.neucom.2014.12.013
.

Zhou Zhihua. Ensemble Methods: Foundations and Algorithms. — Chapman and Hall/CRC, 2012. — ISBN 978-1-439-83003-1.
Robert Schapire, Yoav Freund. Boosting: Foundations and Algorithms. — MIT, 2012. — ISBN 978-0-262-01718-3.

[_ff3f66c94bdb9bcd-1] Opitz, Maclin, 1999, с. 169—198.

[_651b05fac96fbdb7-2] Polikar, 2006, с. 21—45.

[_d0aa8c3d3c848ce5-3] ¹ ² Rokach, 2010, с. 1—39.

[_c15238d93acb9797-4] Kuncheva, Whitaker, 2003, с. 181—207.

[_f5380d4380c58e38-5] Sollich, Krogh, 1996, с. 190—196, 1996.

[_4bed7be007ed6efc-6] Brown, Wyatt, Harris, Yao, 2005, с. 5—20.

[_72dc0343f0ceadfe-7] Adeva, Cerviño, Calvo, 2005.

[_c0b2d1a3145aad61-8] Ho, 1995, с. 278—282.

[_15007277441a3e15-9] Gashler, Giraud-Carrier, Martinez, 2008, с. 900—905.

[_c28291ab9cc1018a-10] Bonab, Can, 2016, с. 2053.

[_ebaf2dfe341959b1-11] Bonab, Can, 2017.

[_3ade75c86b6aa2a8-12] Mitchell, 1997, с. 175.

[_e3390e4bfb4ad8ed-13] Breiman, 1996, с. 123—140.

[_4977f01700921aef-14] Hoeting, Madigan, Raftery, Volinsky, 1999, с. 382–401.

[_d4d4b94d1cdace99-15] Haussler, Kearns, Schapire, 1994, с. 83–113.

[_f76a615f1ae39591-16] Domingos, 2000, с. 223–-230.

[_f6c27903b073b06b-17] Minka, 2002.

[_56ac62d3ffbdcada-18] Castillo, Schmidt-Hieber, van der Vaart, 2015, с. 1986–2018.

[_cf2da714debe7b58-19] Hernández-Lobato, Hernández-Lobato, Dupont, 2013, с. 1891–1945.

[_b4b88140b21f6c6c-20] Monteith, Carroll, Seppi, Martinez, 2011, с. 2657—2663.

[_cd807859537eb6d7-21] Dzeroski, Zenko, 2004, с. 255—273.

[_ddf4717fec95b21d-22] Bensusan, Giraud-Carrier, 2000, с. 325—330.

[_663f0846637b0434-23] Wolpert, 1992, с. 241—259.

[_f414edd63ac7c2ee-24] Breiman, 1996.

[_730a75b80fcaa134-25] Ozay, Vural, 2013.

[_fd259c95cf875f12-26] Smyth, Wolpert, 1999, с. 59—83.

[_584e578cae5e74e5-27] Wolpert, Macready, 1999, с. 41—55.

[_fb3726ed384ed919-28] Clarke, 2003, с. 683—712.

[_f84bfb609c9ab8e6-29] Sill, Takacs, Mackey, Lin, 2009.

[_19e162ba869f6acd-30] Amini, Parmeter, 2011, с. 253–287.

[31] BMS: Bayesian Model Averaging Library (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 28 ноября 2020 года.

[32] BAS: Bayesian Model Averaging using Bayesian Adaptive Sampling (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 7 октября 2020 года.

[33] BMA: Bayesian Model Averaging (неопр.). The Comprehensive R Archive Network. Дата обращения: 9 сентября 2016. Архивировано 7 мая 2021 года.

[34] Classification Ensembles (неопр.). MATLAB & Simulink. Дата обращения: 8 июня 2017. Архивировано 1 декабря 2020 года.

[_6e9bc6dcf766fd70-35] ¹ ² Woźniak, Graña, Corchado, 2014, с. 3–17.

[_e831f8b8dbac3ba0-36] ¹ ² Rodriguez-Galiano, Ghimire, Rogan и др., 2012, с. 93–104.

[_7a2cba37a321e433-37] Giacinto, Roli, 2001, с. 699–707.

[_c09e33dca0c333f0-38] Xia, Yokoya, Iwasaki, 2017, с. 6185—6189.

[_591293a833926cba-39] Mochizuki, Murakami, 2012, с. 126—133.

[_de97ba3b363802e8-40] Giacinto, Roli, Fumera, 2000, с. 160—163.

[_e637b50da48db5a8-41] Du, Liu, Xia, Zhao, 2013, с. 19–27.

[_3a0f5ad0ceee3d4e-42] Bruzzone, Cossu, Vernazza, 2002, с. 289–297.

[_0b90ff7797fd6d49-43] Raj Kumar, Selvakumar, 2011, с. 1328–1341.

[_ee773eaceafb47c4-44] Shabtai, Moskovitch, Elovici, Glezer, 2009, с. 16–29.

[_8ff79cbaee2c0a6f-45] Zhang, Yin, Hao, Zhang, Wang, 2007, с. 468—477.

[_a5be945c7b2ead13-46] Menahem, Shabtai, Rokach, Elovici, 2009, с. 1483–1494.

[_32cb64a96ee65abc-47] Locasto, Wang, Keromytis, Salvatore, 2005, с. 82—101.

[_b8510fe2f7dd8edb-48] Giacinto, Perdisci, Del Rio, Roli, 2008, с. 69–82.

[_9937a8af79f6c9c7-49] Mu, Lu, Watta, Hassoun, 2009.

[_3a00805747013db9-50] Yu, Shan, Chen, Gao, 2006, с. 91—96.

[_e2e2ded1388325d0-51] Yu, Shan, Chen, Gao, 2006, с. 528—531.

[_4b3a4133ed6cda84-52] Liu, Lin, Chen, 2008, с. 144—148.

[_f0f934a4ffbebc9c-53] Rieger, Muraleedharan, Ramachandran, 2014, с. 589—593.

[_7f702394b6e9be86-54] Krajewski, Batliner, Kessel, 2010, с. 3716—3719.

[_114a806cbd476287-55] Rani, Muneeswaran, 2016, с. 10017–10040.

[_e2fad5c461394167-56] Rani, Muneeswaran, 2016, с. 1655020.

[_0422f8a70a0a0112-57] Rani, Muneeswaran, 2018.

[_dde61c06c5ee0a5f-58] Louzada, Ara, 2012, с. 11583–11592.

[_63fa863260a1e747-59] Sundarkumar, Ravi, 2015, с. 368–377.

[_831bd25c673aa8fd-60] ¹ ² Kim, Sohn, 2012, с. 8986–8992.

[_a96f8ab9c6a54b5a-61] Savio, García-Sebastián, Chyzyk и др., 2011, с. 600–610.

[_740a8ecb0a3bf931-62] Ayerdi, Savio, Graña, 2013, с. 122—130.

[_33099d71ee4d2d08-63] Gu, Ding, Zhang, 2015, с. 110–118.

[64] :10.1109/ACCESS.2020.2999816. Архивировано
31 августа 2021 года.

[65] :10.1038/s41598-021-93783-8. Архивировано
31 августа 2021 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG