Результатом классического интеллектуального анализа данных является математическая модель, которая помогает объяснить выявленные в ходе анализа тенденции.
Также эта модель позволяет предсказать появление новых тенденций и даже провести классификацию или сегментирование данных на основе шаблонов поведения, выявить которые совсем не просто.
При интеллектуальном анализе результатом обработки данных является информация, из которой извлекаются знания.
Фундаментальные средства анализа данных основывались на понятиях, связанных с условной вероятностью и предложенных священником Томасом Байесом еще в XVIII веке. Проблема, которая серьезно осложняет анализ данных, заключается в том, откуда берутся сами данные. К примеру, представим, что мы хотим проанализировать сведения о пациентах, страдающих от раковых заболеваний, и обращаемся к архиву онко диспансера. Как правило, в подобных архивах содержится намного больше информации о больных пациентах, чем о здоровых, ведь источником данных является больница. Это исходное отклонение Байес выразил с помощью введенного им понятия условной вероятности, которое мы уже объясняли в предыдущей главе.
Результатом исследований условной вероятности Байеса стал ряд методов, позволяющих учесть это исходное отклонение и сделать точные выводы. В общем случае интеллектуальный анализ данных делится на следующие этапы.
1. Отбор множества данных. На этом этапе выбираются целевые переменные, на основе которых будут производиться сегментирование, классификация или прогнозирование, а также независимые переменные — данные, на основе которых будут строиться модели. Часто обработать все доступные данные невозможно, поэтому на этапе отбора необходимо произвести выборку данных для анализа.
2. Анализ особенностей данных. На этом этапе проводится первое простое изучение данных для выявления нетипичных значений, выходящих за разумные пределы. Также определяются переменные, которые не предоставляют важной информации для решения задачи.
3. Преобразование входных данных. На этом этапе обычно проводится нормализация данных, чтобы избежать серьезных ошибок на последующих этапах моделирования. Предположим, что в задаче рассматриваются две переменные — рост и вес жителей страны. Рост, скорее всего, будет указываться в сантиметрах или даже миллиметрах, вес — в килограммах. Если мы будем использовать нейронную сеть для моделирования этих данных, то получим некорректные результаты из-за больших различий во входных значениях (рост человека может достигать двух тысяч миллиметров, а вес редко превышает сто килограммов). Поэтому данные обычно преобразуются так, чтобы минимальное значение равнялось 0, максимальное — 1.
4. Моделирование. Это основной этап интеллектуального анализа данных. Методы анализа данных делятся на группы в зависимости от того, какие приемы используются на этом этапе. По этой причине моделирование обычно охватывает ряд средств и методологий, как правило, относящихся к мягким вычислениям (эта дисциплина изучает методы решения задач с неполными или неточными данными) и неизменно направленных на извлечение нетривиальной информации. Сюда относятся нейронные сети, метод опорных векторов и так далее.
5. Извлечение знаний. Часто на предыдущем этапе не удается мгновенно извлечь знания из данных. На этом этапе применяются различные инструменты, к примеру, позволяющие получить новые знания при помощи корректно обученной нейронной сети.
6. Интерпретация и оценка данных. Несмотря на интенсивное использование компьютерных методов в интеллектуальном анализе данных, этот процесс по прежнему далек от полной автоматизации. Значительная часть интеллектуального анализа данных выполняется вручную, а качество результатов зависит от опыта инженера. По этой причине после завершения процесса извлечения знаний необходимо проверить корректность выводов, а также убедиться, что они нетривиальны (к примеру, тривиальным будет знание о том, что рост всех людей заключен на интервале от 1,4 до 2,4 м). Также при реальном интеллектуальном анализе одни и те же данные анализируются при помощи разных методологий. На этом этапе производится сравнение результатов, полученных с помощью различных методов анализа и извлечения знаний.
* * *
ПАПА РИМСКИЙ — ПРИШЕЛЕЦ?
В 1996 году Ханс-Петер Бек-Борнхольдт и Ханс-Херманн Даббен в статье, опубликованной в престижном журнале Nature, рассмотрели вопрос: действительно ли Папа Римский — человек? Они рассуждали следующим образом: если мы выберем одного человека случайным образом, то вероятность того, что он будет Папой Римским, составит 1 к 6 миллиардам. Продолжим силлогизм: вероятность того, что Папа Римский — человек, равна 1 к 6 миллиардам.