Translate

вторник, 18 ноября 2014 г.

ТОСАМО

Данный блог будет постепенно раскрывать основы "Теории обобщающей способности алгоритмов машинного обучения" (ТОСАМО). Однако, записи в блоге будут посвящены не только теории, но и практической части. А именно теоретическая часть будет сопровождаться и прикладной в виде реализации с помощью технологии Java в виде библиотеки LibVMR (библиотека векторной машины Решетова), а также испытаниям на прикладных примерах (больших и малых данных), взятых из различных репозиториев.

Основные положения теории обобщающей способности:

  1. Алгоритм машинного обучения, обладающий обобщающей способностью, невозможно переобучить. Т.е. проблема переобучения для таких алгоритмов отсутствует, а потому теорией обобщающей способности даже не рассматривается (для переобучающихся алгоритмов есть теория распознавания образов и статистическая теория обучения, разработанные Владимиром Вапником и Алексеем Червоненкисом).
  2. Алгоритм машинного обучения, обладающий обобщающей способностью, можно только недообучить.
  3. Причиной недообучения алгоритмов обладающих обобщающей способностью является непредставительная обучающая выборка.
  4.  Обучающая выборка может быть непредставительной из-за того, что в ней недостает необходимого и достаточного для полного обучения: значимых факторов или обучающих  примеров или  степеней свободы для значимых факторов.
  5. Алгоритмы машинного обучения, обладающие обобщающей способностью, игнорируют избыточные факторы, обучающие примеры и степени свободы для факторов, если обучающая выборка представительна.
Векторная машина Решетова (VMR) - это алгоритм машинного обучения для одного искусственного нейрона, как и SVM, но в отличие от машины опорных векторов, обладающий обобщающей способностью.

Как отличить алгоритм обладающий обобщающей способностью от алгоритма с переобучением? Для этого нужно взять большую представительную выборку и разделить её на две части: обучающую с достаточным для полного обобщения количеством примеров и тестовую. После чего добавить в обе части непредставительные факторы со случайными значениями и избыточные степени свободы, например, с помощью ядерных преобразований. Обучаем алгоритм на первой части выборки. Если алгоритм обладает обобщающей способностью, то его результативность на тестовой части выборки не ухудшится. Если алгоритм склонен к переобучению, то будет заметно значительное ухудшение его обобщающей способности на тестовой части выборки.

Впрочем, даже если обучающая часть выборки не является полностью представительной, то увеличение степеней свободы в случае обучения на ней алгоритма обладающего обобщающей способностью может привести к увеличению результативности на тестовой части. В случае обучения  переобучающегося алгоритма на обучающей части выборки, даст заметное ухудшение обобщающей способности на тестовой части.

Таким образом, разделив выборку на две части: обучающую и тестовую и обучив на первой части выборки алгоритм машинного обучения, обладающий  обобщающей способностью, можно определить насколько представительна обучающая часть выборки.








Комментариев нет:

Отправить комментарий