Рисунок 12.4
Банковские менеджеры могут улучшить свои решения о выдаче кредитов, используя быстрые и экономные деревья. Кроме того, прозрачные быстрые и экономные деревья работают так же хорошо, как и более сложные и непрозрачные алгоритмы машинного обучения. На верхней панели показаны два дерева, на нижней - кривая приемника-оператора для всех восьми возможных деревьев, а также производительность менеджеров банка и восьми алгоритмов машинного обучения. Каждое "быстрое и экономное" дерево состоит из четырех подсказок, расположенных в одном и том же порядке, а выход с высоким риском отмечает компании, которые с большей вероятностью могут объявить дефолт, тем самым предлагая принять решение "отклонить". Деревья названы по типам выходов в первых трех подсказках; например, FFTHHL имеет три выхода, указывающих на "высокий риск", "высокий риск" и "низкий риск" соответственно. Показатели истинных и ложных срабатываний банковских менеджеров были основаны на 380 решениях, принятых девятнадцатью менеджерами. FFT = быстрое и экономное дерево; LR = логистическая регрессия со штрафом L2; KNN = k-nearest neighbor; NB = naive Bayes; CART = дерево классификации и регрессии; RF = случайный лес; AB = адаптивный бустинг; NN = нейронная сеть; SVM = супорт-векторная машина. По данным Li et al. (2022).
Например, менеджер банка, использующий дерево, показанное на левой верхней панели, сначала спросит, содержит ли кредитная история недостатки; если да, заявка классифицируется как высокорискованная и отклоняется. Если нет, то задается второй вопрос о том, составляет ли соотношение сбережений к кредиту менее 5 процентов; если да, то заявка классифицируется как высокорискованная. Если нет, задается третий вопрос, и так далее. Обратите внимание, что первые два выхода относятся к "высокому риску", что помогает менеджерам избежать ложных срабатываний. Напротив, в дереве на панели справа вверху только первый выход является "высокорискованным", что позволяет получить больше ложных срабатываний, но при этом добиться более высокого показателя истинных срабатываний (т. е. избежать ложноотрицательных результатов).
Сплошная диагональная линия на нижней панели рисунка 12.4 представляет собой случайную характеристику. Например, если все кредиты приняты, то коэффициент ложноположительных и истинно-положительных результатов равен 1, что соответствует точке в правом верхнем углу. Если случайным образом принимается половина кредитов, то коэффициент ложноположительных и истинно-положительных результатов равен 0,5. Видно, что результаты работы менеджеров банка лишь немного превышают случайность. Они могли бы работать гораздо лучше, если бы использовали одно из быстрых и экономных деревьев, о которых говорилось в этой статье.
Могут ли сложные и непрозрачные методы машинного обучения принимать лучшие решения по кредитам, чем прозрачные быстрые и экономные деревья? Мы протестировали восемь мощных алгоритмов машинного обучения, включая SVM, случайный лес и нейронные сети. Эти алгоритмы используют все семнадцать признаков и весов и добавляют их зачастую сложными способами. На нижней панели рисунка 12.4 показано, что в среднем они не достигают лучшей производительности, чем быстрые и экономные деревья. Если судить по метрике d′, которая уравновешивает количество ложных и истинных срабатываний, то производительность алгоритмов машинного обучения и быстрых и экономных деревьев была схожей, и для всех них d′ составлял около 1,90.
В отличие от этого, результаты работы менеджеров банка оказались на удивление низкими: скудный показатель d′ составил 0,13 (а точность на уровне шансов - 0). Аналогичные результаты работы экспертов были обнаружены и в медицине. Действительно, разочарование по поводу низкой эффективности работы врачей отделения неотложной помощи при классификации пациентов с сердечным приступом стало основной причиной того, что медицинские исследователи Ли Грин и Дэвид Мер разработали одно из первых быстрых и экономных деревьев в медицине. 17 Одним из решений этой проблемы является обучение врачей и менеджеров банков систематической разработке и использованию быстрых и экономных деревьев. В книге "Классификация в дикой природе" Константинос Кацикопулос и его коллеги описывают, как быстрые и экономные деревья достигают таких же результатов во многих других задачах классификации, а также как построить быстрое и экономное дерево на основе количественных и качественных данных. 18 В целом, это исследование - еще одна демонстрация того, как эвристика может быть эффективным инструментом в большом мире. Важно отметить, что, в отличие от большинства алгоритмов машинного обучения , быстрые и экономные деревья абсолютно прозрачны, что позволяет менеджерам понимать, обучать и изменять их.