Выбрать главу

Почему эвристика хиатуса так хорошо работает на основе единственной подсказки? Принято считать, что чем больше данных и вычислительных мощностей, тем лучше предсказания. Однако в условиях неопределенности наличие большего количества данных не всегда является хорошей идеей. В частности, если нужно предсказать будущее, а будущее не похоже на прошлое, то тонкая настройка на основе прошлого приводит к чрезмерной подгонке, то есть к проецированию тенденций прошлых данных на будущее, где они уже не действуют. Таким образом, когда компания создает сложную модель для прогнозирования будущих покупок с использованием огромного количества данных о клиентах, она рискует получить чрезмерную подгонку: Модель успешно "объясняет" прошлые покупки, но не может предсказать будущие.

В качестве другого примера можно привести прогнозирование количества обращений к врачу в связи с гриппом на следующей неделе. Для решения этой задачи инженеры Google разработали алгоритм обработки больших данных под названием Google Flu Trends (GFT). Идея заключалась в том, что если люди испытывают симптомы гриппа, они, скорее всего, будут искать в Google информацию о гриппе; информация из этих поисковых запросов должна помочь предсказать распространение гриппа гораздо быстрее, чем это могут сделать любые медицинские организации. Для разработки алгоритма инженеры проанализировали около 50 миллионов поисковых запросов, протестировали сотни миллионов моделей прогнозирования и, выбрав лучшую из них, составили прогноз доли обращений к врачу в связи с гриппом с 2007 по 2015 год. Когда свиной грипп пришел не по сезону, начавшись в марте 2009 года и достигнув пика в октябре того же года, GFT пропустила вспышку. Он постоянно недооценивал ее распространение, поскольку за предыдущие годы он усвоил, что число случаев заражения было высоким зимой и низким летом ( рисунок 2.2 ). В ответ на это алгоритм был усложнен, а количество переменных увеличено с 45 до 160. Этот и последующие изменения не улучшили качество прогнозов, и в 2015 году GFT была закрыта. 27

Прогнозирование еженедельного процента обращений к врачу по поводу гриппа с помощью одной точки данных (эвристика повторяемости) снижает ошибку прогнозирования примерно в два раза по сравнению с алгоритмом больших данных Google Flu Trends (GFT). Средняя абсолютная ошибка для эвристики recency составляет 0,20, а для GFT - 0,38. Это справедливо для всех обновлений GFT и всего временного периода с 2007 по 2015 год. Например, когда летом 2009 года вспыхнул свиной грипп, GFT недооценил процент обращений к врачу в связи с гриппом (пунктирная кривая), в то время как эвристика рецидива (пунктирная кривая) быстро адаптировалась к неожиданной вспышке. Три вертикальные линии указывают на три обновления GFT. Годы означают начало года, то есть "2008" означает 1 января 2008 года. По материалам Katsikopoulos et al. (2022).

Грипп происходит в динамичном, большом мире, где вирусы мутируют, а люди вводят поисковые запросы не только при наличии симптомов, но и из любопытства или по многим другим причинам. Один из способов избежать чрезмерной привязки к прошлому - использовать только самые последние данные и игнорировать остальные. Эвристика рекурсивности опирается только на самую последнюю точку данных, в данном случае на частоту обращений к врачу по поводу гриппа за последнюю неделю.

Эвристика рецидива: Предскажите, что на следующей неделе количество посещений врача в связи с гриппом будет таким же, как и в последний раз.

Опираясь исключительно на самую последнюю точку данных, а не на большие данные, эвристика может быстро адаптироваться к несезонным событиям из-за мутаций и не отвлекаться на нерелевантные причины для выполнения поиска в Интернете, связанного с гриппом. Эвристика рецидива предсказывала грипп стабильно лучше в течение восьми лет, когда тестировался GFT, а также превзошла все ревизии алгоритма больших данных. 28 В целом она уменьшила ошибку предсказания GFT примерно наполовину (рис. 2.2). В условиях нестабильности одна точка данных может дать лучший прогноз, чем большие данные.

Общий урок таков: чтобы не переборщить с подгонкой под прошлое, стремитесь к простоте. Простота означает сокращение числа параметров модели, которые необходимо оценивать по прошлым данным. Эвристика хиатуса имеет только один свободный параметр , а эвристика рецессии вообще не имеет свободного параметра, что делает ее надежной в том смысле, что она не может перестроиться. В условиях неопределенности меньше информации часто оказывается полезнее. Конечно, это не означает, что лучше всего игнорировать всю прошлую информацию. Скорее, это означает, что использование только одного или нескольких критических признаков, таких как хиатус, является эффективной стратегией. В условиях неопределенности обычно существует ∩-образная функция между количеством используемых признаков и точностью прогнозирования. 29