Выбрать главу

Но ничего не выйдет, поскольку это невозможно. У вас нет информации о том, как сыграет команда в предстоящем сезоне, следовательно, вы не узнаете ничего о предстоящих спортивных победах или поражениях. У вас есть данные за прошлый сезон, но они не пригодятся, потому что вы научили машину прогнозировать по данным за текущий год.

Для вашего прогноза необходимы данные, доступные на момент прогнозирования. Возможно переучить прогностическую машину использовать забитые в прошедшем году шайбы для прогнозирования предстоящих побед. Можно добавить другую информацию, например о выигранных ранее матчах или возрасте игроков команды и качестве их игры.

Так работают многие коммерческие приложения ИИ: для создания прогностической машины берут входные данные вместе с критериями исходов, а затем используют входные данные новой ситуации для прогнозирования ее исхода. Если вы располагаете данными по исходам, то ваша прогностическая машина может непрерывно обучаться на данных обратной связи.

Решения по данным

Сбор информации нередко стоит дорого, но прогностические машины иначе работать не могут. Исходные данные необходимы для их создания, функционирования и совершенствования.

Следовательно, нужно найти решение относительно масштаба и диапазона приобретаемых данных. Сколько разных типов данных вам понадобится? Сколько различных объектов требуется для обучения? Как часто вам необходимо собирать данные? Большее число типов, объектов и частый сбор означают, что цена будет выше, но и выгода тоже увеличится. Взвешивая решение, следует тщательно продумать, что именно вы собираетесь прогнозировать. Конкретные предсказательные задачи подскажут ответ.

Программа Cardiogram разработана для прогнозирования риска развития и возникновения инфарктов. Нарушения сердечного ритма в ней использовались в качестве индикатора (подтвержденного медициной)[35]. В качестве цели установили выявление нарушений, после чего оставалось только получить данные о ЧСС пользователей. Могли также использоваться данные о сне, физической активности, родственниках, истории болезни и возрасте. После получения данной информации приложению требовался всего один прибор, точно измеряющий единственный параметр – ЧСС.

Данные были необходимы Cardiogram и для обучения – в базе состояло шесть тысяч человек, и некоторые из них страдали нарушениями сердечного ритма.

Несмотря на обилие датчиков и разнообразие потенциально доступных данных о пользователях, по большинству людей Cardiogram собирала немного информации. И доступ требовался только к данным об отклонениях сердечного ритма у людей из обучающей ИИ выборки. Таким образом, количество переменных оказалось относительно малым.

Для качественного прогноза в распоряжение машины должны быть предоставлены обучающие данные по достаточному количеству людей (или единиц анализа). Количество зависит от двух факторов: первый – стабильность «сигнала» по отношению к «шуму», второй – насколько точным должен быть прогноз, чтобы он имел смысл. Иными словами, требуемое количество людей зависит от того, считаем мы ЧСС сильным или слабым прогностическим критерием нарушений сердечного ритма, и того, насколько дорого обойдется ошибка. Если ЧСС считается сильным прогностическим критерием, а ошибки не принесут проблем, то достаточно нескольких человек. Если же это слабый критерий или любая ошибка может стоить жизни, то необходимы тысячи людей, а лучше миллионы. В предварительном исследовании Cardiogram, как мы уже говорили, использовалась выборка из шести тысяч человек, в том числе двухсот с нарушениями сердечного ритма. Впоследствии сбор дополнительной информации осуществлялся посредством обратной связи о том, диагностировано ли у пользователей нарушение сердечного ритма.

Почему именно шесть тысяч? Специалисты по обработке и анализу данных пользуются отличным инструментарием для получения необходимого объема информации с учетом желаемой надежности и степени точности прогноза. Эти инструменты называют «расчетом мощности» – они сообщают, сколько единиц требуется для проведения анализа, с тем чтобы прогноз имел смысл[36]. Очевидно, придется искать компромисс: для более точного прогноза необходимо больше анализируемых показателей, а они могут дорого стоить.

Cardiogram требует постоянного сбора данных – посекундного, – и для этого используется Apple Watch: ритм сердечных сокращений варьируется в течение дня, а для точности измерений необходим многократный анализ того, насколько измеренный показатель типичен для конкретного человека. Алгоритмы Cardiogram используют устойчивый поток данных от устройства, которое человек постоянно носит на теле, в противовес результатам отдельных измерений при посещении врача.

вернуться

35

Мы не знаем, станет ли успешным именно Cardiogram, однако уверены, что смартфоны и другие датчики в перспективе будут использоваться для медицинской диагностики.

вернуться

36

Шесть тысяч – относительно малая выборка для такого исследования, поэтому мы и назвали его «предварительным». Данных было достаточно для изначальной цели Cardiogram, поскольку предварительное исследование проводилось для доказательства действенности концепции: жизням пациентов ничто не угрожало. Чтобы результаты принесли практическую пользу, данных понадобится гораздо больше.

полную версию книги