Рисунок 12.3
В задаче отбора персонала дельта-индукция выбирала лучшего кандидата чаще, чем алгоритмы машинного обучения. Это преимущество сохранялось независимо от того, были ли возможности для обучения скудными, умеренными или широкими (случайные выборки размером 30, 100 и 1000 соответственно), но оно было особенно выражено, когда возможности были скудными или умеренными. По материалам Luan et al. (2019).
В отличие от исследований эвристик хиатуса и мультипликатора, о которых говорилось ранее, мы не выводили параметры эвристики дельта-инференции (т. е. порядок поиска подсказок и дельту в каждой подсказке) из опыта менеджеров. Вместо этого мы использовали подход, основанный на данных, подобно тому, как разрабатываются большинство алгоритмов машинного обучения. В свете результатов этого исследования (и многих других, о которых рассказывается в этой книге) мы советуем аналитикам данных всегда помнить о том, что простые эвристики могут работать не хуже или лучше сложных алгоритмов в условиях неопределенности, и призываем их опробовать такие модели на своих собственных данных. В последние годы сообщество специалистов по машинному обучению повторяет это мнение. 14
Выявление кредитов с высоким уровнем риска
К третьему кварталу 2022 года общая стоимость неработающих кредитов в китайских коммерческих банках составила 3 трлн юаней (примерно 426 млрд долларов). 15 Это только официальная цифра - реальная, скорее всего, выше. Как банки могут принимать более эффективные решения о выдаче кредитов? Сотрудница одного из нас (Луань) более десяти лет проработала в одном из крупнейших банков Китая, специализируясь на выдаче кредитов малым и средним компаниям. Она собрала данные о 411 компаниях, которым банк выдал кредит и о результатах выплат которых (т. е. своевременных или просроченных) было известно. Она выявила семнадцать признаков, которые обычно проверяются в заявках на получение кредита, и кодифицировала эти признаки для каждой компании. Как банки могут использовать эти признаки для отнесения заявок на кредит к категории высокого или низкого риска? 16
Сначала мы набрали девятнадцать менеджеров банков, чтобы установить базовый уровень эффективности. В среднем эти менеджеры имели более чем десятилетний опыт работы в кредитном бизнесе. Мы дали каждому менеджеру по двадцать кредитных заявок, каждая из которых содержала значения семнадцати признаков. Затем мы попросили их классифицировать заявки как "высокорискованные" (отклонить) или "низкорискованные" (одобрить). Во-вторых, мы построили быстрые и экономные деревья для этой задачи классификации, используя четыре признака, которые в наибольшей степени свидетельствовали о хороших результатах кредитования. Для четырех признаков, расположенных в одинаковом порядке, можно построить восемь быстрых и экономных деревьев (для трех признаков - четыре дерева; см. рисунок 4.3 в главе 4). Эти деревья различаются балансом между двумя возможными ошибками: ложноположительными (принятие приложения, которое впоследствии откажется работать) и ложноотрицательными (отклонение приложения, которое не откажется работать). На нижней панели рисунка 12.4 эти восемь деревьев расположены на кривой приемника-оператора. Эта кривая соединяет отдельные деревья, которые отличаются тем, как они балансируют две возможные ошибки. В целом деревья, расположенные в левой части кривой приемника-оператора, уменьшают количество ложноположительных результатов ценой увеличения количества ложноотрицательных результатов, в то время как деревья, расположенные в правой части, уменьшают количество ложноотрицательных результатов ценой увеличения количества ложноположительных результатов. Взгляд на кривую показывает, что ни самое левое дерево (то есть FFTHHH), ни четыре самых правых дерева не обеспечивают разумного баланса между двумя ошибками; таким образом, выбор банка должен быть сделан среди трех оставшихся деревьев, два из которых показаны на верхней панели рис. 12.4.