Матрица состоит из сенсоров двух типов — позитивного и негативного; «присутствует», «отсутствует» — это единственный сигнал, подаваемый такой ячейкой, или подразделением матрицы. Изображенная матрица содержит только шесть ячеек — три «минуса» и три «плюса», и, судя по расположению этих компонентов (все «отрицательные» элементы расположены слева), вполне подходит для идентификации левого края объекта. Помещение матрицы ее средней линией над левым краем куба привело бы к полному соответствию. На углу соответствие было бы плохим, а на нижнем крае, где плюс и минус отменяют друг друга, соответствия не будет. Хотя эта эвристика в наибольшей степени ориентирована на возможности машин, она не расходится с результатами изучения восприятия у человека и животных. Ранее в этой книге (см. главу 4) мы упоминали, что психофизиологам удалось найти детекторы линий в клетках коры головного мозга кошек, и, хотя эти данные еще не полностью подтверждены, похоже, что у человека также имеются детекторы края.
Трудность использования вышеприведенной системы состоит в том, что для распознавания даже простых паттернов требуется большое количество матриц (например, детектор левой кромки, детектор правой кромки). Также проблематична «добротность» стимула; большинство геометрических форм (особенно в реальном мире) могут иметь резкие или расплывчатые, яркие или тусклые края. Распознавание паттернов путем распознавания линий можно сильно упростить, если идентифицируемую форму сначала преобразовать в образ, состоящий только из линий, и затем использовать матрицы для определения ориентации этих линий.
Распознавание паттернов
Системы распознавания паттернов обычно имеют дело со зрительным материалом. Как правило, воспринимающие устройства у таких систем имеют растр, или матрицу из фотоэлементов, реагирующих на свет. Обычно эти фотоэлементы находятся в двух состояниях: «включено» и «выключено» (для «белого» и «черного»). Рассмотрим элементарную задачу идентификации цифры. На рис. 16.2 показано, как цифры можно преобразовать в двоичный код: 0, или «выключено», — для «черного», и 1, или «включено», — для «белого»
Рис. 16.2. Двоичное представление (колонка в центре) букв (колонка слева). Нули показывают «выключено», или «черный», единицы — «включено», или «белый». В правой колонке показано, как выглядели бы цифры при считывании их сканером
Компьютер считывает каждую цифру (то есть фотоэлементы — один для каждого квадрата сетки, накладываемой на число, «ощущают» световые зоны, т. е. те, которые не заняты числом) исходя из того, насколько данный цифровой код совпадает с матрицей, хранящейся в памяти компьютера. Этот принцип работает очень хорошо, если все буквы одной формы, одинаково расположены и не размыты, такие устройства широко применяются в американской промышленности и государственной почтовой службе. Но когда дело доходит до чтения рукописных писем, присланных для тети Иолы, у оптических сканирующих устройств начинаются разные трудности. Однако в наше время быстро разрабатываются системы для «чтения» даже рукописных текстов.
Идентификация букв и слов средствами ИИ — это не только практическая задача, она также имеет значение для тех ученых, кто интересуются процессом анализа информации человеком. Многое из того, что нам уже известно об идентификации человеком букв и слов, обсуждалось в главе 12. Эти знания помогают разрабатывать компьютерные программы, имитирующие данный процесс. Подробный отчет по этой теме, послуживший руководством для последующих исследований, представили Селфридж и Найссер (Selfridge & Neisser, 1963). Выше описанная общая процедура «восприятия буквы» потребовала бы компьютерной памяти огромного объема (для хранения матрицы каждого нового варианта каждой буквы) или оказалась бы неспособной обнаруживать многие встречающиеся в действительности формы букв.
Основная логика Селфриджа и Найссера была использована в недавно появившихся устройствах, считывающих буквы и слова. Эти компьютеры «читают» текст с помощью ряда подпрограмм, каждая из которых специализируется в одной части задачи чтения, скажем буквы. Такой анализ несколько напоминает способ решения задач «средства-результат», упомянутый в главах 14 и 15, посвященных мышлению. Один из способов работы программы чтения буквы изображен на рис. 16.3. На нем показано, как буква R обрабатывается через ряд довольно простых стадий, пока не устанавливается соответствие на основе исключения альтернатив.
Рис. 16.3. Буква R обрабатывается через ряд стадий идентификации. На каждой стадии программа распознает специфические признаки буквы, такие как диагональные линии, углубления и т. д.