Тогда друзья решили взяться за дипломную работу Юхина - трехмерное распознавание лиц, и сделать на ее основе объемный фотоаппарат, быстро выдающий виртуальные «слепки» снятых объектов. В 1999 году у них уже было «устройство для бесконтактного контроля и распознавания поверхностей трехмерных объектов» (это цитата из заявки на Патент РФ) и, доработав его до изделия, которое можно было показывать инвесторам, они решили действовать по инструкции для начинающих стартапов - составили список подходящих венчурных фондов и на свои деньги стали летать по миру, убеждая вложить капитал в свое ноу-хау. К счастью, разработка оказалась удивительно демонстративной - быстрое создание виртуальных «слепков» было легко показывать, и российский «сканер» застревал в памяти многих инвесторов (сохранилась страничка проекта на сайте бауманского университета)…
Через год, когда свои и занятые деньги заканчивались, у друзей было три предложения от разных венчурных фондов. После долгих колебаний был выбран европейский фонд MyQube, дававший наибольшую свободу действий. Документы были подписаны, а через несколько месяцев пузырь «интернет-экономики» громко лопнул - новорожденная A4Vision оказалась последним стартапом фонда. В тот момент к ним примкнула Келли Ричдейл (Kelly Richdale), внеся свой большой вклад в дальнейшее развитие бизнеса. Покупателями своего сканера они видели в первую очередь доткомы - сетевые магазины и разного рода галереи, которые должны были быть заинтересованы в создании (а затем показе на веб-сайтах) 3D-каталогов своих товаров. Расчет не оправдался, и вместо потока заказов доткомы сообщали о своей ликвидации.
В новых условиях решили изменить направление разработок. Биометрия была еще не в фаворе, поэтому попытались сделать приложение для пластической хирургии - субмиллиметровая точность «слепков» должна была привлечь хирургов, правящих носы и прочие части тела богатым клиентам. Хотя идея казалась вполне разумной, но и для нее покупателей не нашлось. Но им удалось заинтересовать гигантскую Logitech идеей автоматической фокусировки ее веб-камер на лице человека. В результате, A4Vision сделала программный продукт, который успешно начал продаваться, и Logitech стал первым стратегическим инвестором. А затем наступило 11 сентября 2001 года…
Скажем сразу, что сам по себе метод «сканирования с помощью проецирования шаблона» изобретен давно. Он хорошо известен среди специалистов и даже имеет историю успешного применения. В самом начале 90-х автору этих строк попалась фотография поросенка, освещенного сверху десятком ярких световых полос - это была разработка британских ученых, создавших систему быстрого и бесконтактного измерения свиней. Вроде бы в этом нуждались английские фермеры, но свиньи (чуя истинную цель затеи) отказывались сотрудничать, поэтому пришлось изобретать способ измерения объекта без его ведома. В конце концов установка вылилась в узкий коридор с темным полом, по которому «объекты» прогонялись и освещались сверху через подобие жалюзи. Камера делала снимок «полосатой» свиньи, по которому даже тогдашние компьютеры могли рассчитать ее охват «в плечах», «в талии», «в бедрах» и т. д.
Кстати
Ошибки распознавания «обознался» и «не признал» тесно связаны - закручивая чувствительность системы, одновременно повышаешь и вероятность ложных тревог. На сайте A4Vision указывается: Extremely low False Rejection Rates (FRR), even when the False Acceptance Rate (FAR) is set close to zero (.0001). В популярных статьях называются цифры «одна ошибка на сотню» для «не признала своего», «одна шибка на миллион» для «приняла чужого за своего» или более скромные «одна на сто тысяч».
Что в начале 90-х могли британские университеты, в конце 90-х смогли российские выпускники, причем лучше и дешевле - первый прототип своей системы, который демонстрировался инвесторам, был сделан из цифрового фотоаппарата Olympus, даже не «доработанного напильником». Как уже догадались проницательные читатели, процесс «сканирования» выглядел просто - объект освещался специальным источником света. Затем делался его снимок, который отправлялся в компьютер, где самое важное и трудное совершалось на программном уровне - из плоского изображения строилась трехмерная поверхность объекта. Судя по всему, строилась достаточно впечатляюще, чтобы идея получила финансирование.
Но давайте рассмотрим, как процесс опознания по лицу проходит в готовой системе A4Vision, испытанной и уже предлагаемой покупателям. Итак, настенный прибор под названием Vision Access 3D Face Reader работает в инфракрасном спектре. Он удобнее видимого, поскольку устойчивее к посторонней засветке, не привлекает внимания и просто не слепит глаза. Главный узел прибора состоит из двух блоков - излучателя и фотоприемника, способного делать качественные снимки со скоростью десятки кадров в секунду. Иногда его называют 3D-камерой, что может ввести в заблуждение. Камера там обычная - 2D, но ее снимки преобразуются в трехмерные поверхности. Естественно, для этого излучатель «структурированной подсветки» должен быть немного в стороне от камеры - ведь если подсвечивать лицо прямо через объектив, то на снимке не будет заметно искажений световой решетки. На некоторых моделях сканера отчетливо видны два «окна», и параллакс между ними составляет около 30 см.
Снимки, сделанные камерой, сначала обрабатываются алгоритмами первичной обработки. Компания рассказывает о них скупо, но известно, что, например, автоматически отбрасываются кадры, на которых нет человеческих лиц, а на тех, что есть, сами лица эффективно выделяются из окружающего их «шума». Слово «эффективно» значит, что эта фильтрация идет почти со скоростью съемки - десятки снимков в секунду. Это впечатляющее и важное достижение - выделение из видеопотока лица, подсвеченного световым шаблоном, прямо влияет на весь процесс опознания. Традиционные системы, работающие с плоскими снимками, проводят такое выделение с большим трудом, поскольку вынуждены работать, по сути, с комбинацией темных и светлых пятен - именно так машина «видит» обычную фотографию.
Рынок лицевой идентификации в США (тогда еще 2D) был занят несколькими известными компаниями, которые после терактов провели активную PR-компанию своих продуктов. Их акции пошли вверх, и даже были заключены крупные контракты, но затем Пентагон провел независимые испытания, которые все системы провалили. Например, известная Visionix дала 52,5% ошибок типа «не признал» на базе всего из пятнадцати человек-добровольцев (503 неудачных попытки на 958 распознаваний), а на полевых испытаниях в аэропорту Палм-Бич ошибки типа «обозналась» составили 31,3% от общего числа тревог (1081 ложная тревога из 3455).
В результате, когда A4Vision смогла сделать альфа-версию своего «опознавателя», сама идея face recognition была глубоко дискредитирована, и неизвестному стартапу пришлось доказывать, мол, «ваши старые большие компании ничего не умеют, а наша молодая и маленькая умеет гораздо больше их».
На сегодняшний день главный продукт A4Vision - набор алгоритмов и технических устройств, которые крупные интеграторы систем безопасности могут встраивать в свои приложения. Крупному банку такая система может обойтись даже дешевле стандартных смарт-карт при несравнимо большей надежности.