Translate

среда, 19 ноября 2014 г.

Прогнозируем банкротства

Ещё одна задачка, решённая с помощью LibVMR

В репозитории uci.edu есть выборка для предсказания банкротств. См. http://archive.ics.uci.edu/ml/datasets/Qualitative_Bankruptcy

Авторы: Myoung-Jong Kim, Ingoo Han опубликовали статью под названием: «The discovery of experts decision rules from qualitative bankruptcy data using genetic algorithms».

См. http://koasas.kaist.ac.kr/handle/10203/3685

Судя по оригинальной авторской статье, выборка предназначалась для генетических алгоритмов, т. к. предполагалось, что для других алгоритмов она не по зубам.

Однако, вынужден развеять сомнения авторов относительно нейросетевых способностей.


Саму выборку можно скачать по адресу: http://archive.ics.uci.edu/ml/machine-learning-databases/00281/

В качестве зависимых переменных используются предсказания экспертов по признакам:

x0 - Индустриальный риск
x1 - Управление рисками
x2 - Финансовая гибкость
x3 - Кредитоспособность
x4 - Конкурентоспособность
x5 - Операционный риск

Все значения зависимых переменных категориальны и имеют одно из трёх значений:

P – положительно
A - средне
N – негативно

В качестве значений зависимой переменной d применяются категориальные обозначения:

NB – отсутствие банкротства
B – дефолт

Я заменил в выборке все категориальные значения числовыми, чтобы скормить их искусственному нейрону с  ядром МГУА:

P на 1
A на 0
N на -1
NB на 0
B на 1

После этого было проведено несколько этапов случайных разбиений примеров из  выборки на обучающую и тестовую части с последующими  обучениями алгоритма на обучающей части и валидацией на части тестовой.

Все этапы на обучающих частях выборки проходили без ошибок. На тестовых частях изредка появлялась всего одна ошибка в виде ложноотрицательного примера.

Если ошибки не появлялись, то искусственный нейрон генерировал примерно схожие многочлены с незначительными различиями весовых коэффициентов.

В качестве окончательного решения был взят один из таких многочленов в виде неравенства:

d = -0.5416484169221631 - x4 - 0.1670687860369955 * x3 - 0.2497157539794443 * x2 + 0.1665362934918911 * x2 * x1 -0.33296421350101096 * x2 * x0 -0.16702978658298784 * x3 * x2 * x1 * x0 > 0

где:

Значение d > 0 прогнозирует банкротство. Значение d < 0 говорит об отсутствии предпосылок для дефолта.

Подстановка многочлена в виде формулы в электронную таблицу, содержащую всю выборку, подтвердила безошибочность неравенства на всех примерах.

Как видно из неравенства, объясняющая переменная x5, обозначающая операционный риск была признана незначимой для прогноза и исключена из формулы.

Несмотря на утверждения авторов о том, что информация в выборке содержит субъективные выводы экспертов, а потому якобы могут иметь место потенциальные проблемы, тем не менее, как выяснилось, субъективизм никоим образом не сказался на репрезентативности. Ведь если разделив выборку на две равные части, можно выявить закономерности в любой из частей с минимальной специфичностью в виде одной ложноотрицательной ошибкой в единственном примере и с максимальной безошибочной классификацией.

P/S: На просторах интернета можно найти разные статьи, ссылающиеся на вышеуказанную выборку, например: http://www.mecs-press.org/ijisa/ijisa-v6-n1/IJISA-V6-N1-5.pdf

Комментариев нет:

Отправить комментарий