Translate

вторник, 18 ноября 2014 г.

Три поколения алгоритмов машинного обучения


Искусственный нейрон впервые был описан психологами из США Уоренном Мак-Маккалоком и Вальтером Питсом в статье: McCulloch W.S., Pitts W. A logical Calculus of Ideas Immanent in Nervous Activity — Bull. Mathematical Biophysics, 1943

Первое поколение алгоритмов машинного обучения

Однако, несмотря на то, что предполагались предпосылки применения искусственных нейронов для логических вычислений, каких либо результатов добиться не удавалось до до тех пор пока канадский нейрофизиолог не разработал дельта-правило самообучения с подкреплением для искусственного нейрона, опубликованное в статье: Hebb, D. O. The organization of behavior: a neuropsychological theory. - John Wiley & Sons, New York, 1949

Тем не менее, прикладное применение нейрокомпьютинга было отложено ещё на 2 года.

В 1951 г. коннективист из США Марвин Минский построил самообучающийся искусственный нейрон на электронных лампах и приступил к его исследованию.

В 1958 г. психолог из США Френк Розенблатт доказал теорему, согласно которой машинное обучение искусственного нейрона с подкреплением может привести к решению задачи бинарной классификации при определённых условиях. В 1959 г. Ф. Розенблатт приступил к созданию первой многослойной нейронной сети - перцептрона. Однако, эта попытка не оправдала возложенных на неё надежд: перцептрон несмотря на хорошую обучающую способность не обладал обобщающей способностью.

Марвин Минский, перешёл из лагеря коннективистов в лагерь противников коннективистского подхода, сформулировав ряд проблем, без решения которых задачи бинарной классификации неразрешимы.

Второе поколение алгоритмов машинного обучения

В 1974 г. советскими статистиками Владимиром Вапником и Алексеем Червоненкисом была разработана теория распознавания образов. На базе этой теории, также был разработан алгоритм машинного обучения (бинарная классификация), названный машиной опорных векторов. Вместо многослойной структуры нейронных сетей, некоторые входные сигналы подвергаются двухвекторным ядерным преобразованиям (kernel trick).

Суть теории распознавания образов заключается в том, что алгоритмы, построенные на поиске экстремума целевой функции бинарной классификации (минимизация эмпирического риска), теряют свойство повышения обобщающей способности при увеличении степеней свободы алгоритма машинного обучения до некоторого предела. При превышении предела, несмотря на дальнейший рост обучающей способности алгоритма, обобщающая способность начинает умаляться.

Машина опорных векторов не решала прежних проблем, указанных М. Минским и не обладала обобщающей способностью. Но теория распознавания образов, несмотря на частично ложные выводы (в частности вывод об «однозначности» решения минимизации структурного эмпирического риска), тем не менее привела в конечном итоге к созданию свёрточных нейронных сетей, где за счет ограничений степеней свободы алгоритмов машинного обучения, удалось впервые за всю историю нейрокомпьютинга научиться различать изображения кошек от других изображений.

Третье поколение алгоритмов машинного обучения

В 2014 г. дилетант из бывшего Советского Союза Юрий Решетов, применил метод машинного обучения, основанный инвариантности классов бинарной классификации (приведению двух классов к одному), на минимаксе эмпирического риска (Теория антагонистических игр двух лиц с нулевой суммой) и применения критерия Шелли (Теория кооперативных игр), названный VMR (векторная машина Решетова).

Результат превзошёл ожидания:

  1. При повышении числа степеней свободы с помощью ядерных преобразований, обобщающая способность алгоритма улучшается при наличии хотя бы пары значимых входных значений. А это позволяет без предварительных методов подбирать ядерные преобразования для входных векторов, ограничиваясь лишь ёмкостью компьютерных оперативных запоминающих устройств. 
  2. Решена проблема проклятия размерности, т. к. алгоритм VMR ещё в процессе обучения обнуляет весовые коэффициенты для незначимых входов (автоматическое понижение размерности) без применения дополнительных методов, например, таких, как метод главных компонент 
  3. Низкая обобщающая способность свидетельствует о том, что проблема находится не в алгоритме машинного обучения, а в обучающей выборке (мусор на входах).
  4. Скорость обучения алгоритма близка к линейной и пропорциональна сумме количества входов искусственного нейрона и количества примеров в обучающей выборке.



Следует заметить, что авторы теории распознавания образов были недалеки от решения проблемы машинного переобучения:

  1. Машина опорных векторов содержит одноклассовый алгоритм, который практически решает проблему инвариантности.
  2. В рамках теории была рассмотрена возможность применения минимакса эмпирического риска, но очень поверхностно. В результате чего, авторы пришли к ложному выводу о потенциальной бесперспективности поиска решений в этом направлении.


Комментариев нет:

Отправить комментарий