В какой степени процесс настройки модели автоматизирован ? Как проходит первоначальное построение модели под конкретного пользователя : он должен обработать какие - то тексты , пройти тесты ? - Мы стараемся сделать процесс построения модели максимально автоматизированным. Первоначально человек формирует поисковые запросы, связанные со своими интересами, и на их основе строится первый вариант модели знаний. Пользователь может оценивать полезность и полноту той или иной информации, которую выдает ему созданная модель, и в ответ на эти действия модель автоматически видоизменяется. Чем больше времени человек или компания «тренирует» свою модель области знаний, тем в большей степени она отвечает требованиям потребителя.
А каков ваш третий проект ?
- Это совместный проект с тремя другими Лабораториями HP - одной китайской и двумя американскими. Он, как нам кажется, будет иметь гораздо большую научную значимость. Мы хотим эффективнее обрабатывать информацию, в том числе информацию на естественном языке, хотим научиться удалять неоднозначности из текстов, выявлять смысловые отношения между понятиями, которые имеются в тексте.
В некоторых из этих технологий преуспели китайские исследователи, в других - российские. Американцы разрабатывали методы и алгоритмы, которые архитектурно расположены ближе к «железу». Мы хотим попытаться объединить эти технологии, чтобы добиться более быстрого и точного поиска информации.
Решением подобных проблем, с тем или иным успехом, в мире занимаются несколько групп и компаний. Чтобы проиллюстрировать сложность этой работы, приведу два примера. Допустим, нужно выяснить, кто знал что-то в такой-то момент времени? Так вот дать однозначный ответ, сформировав его из моря информационных источников, очень непросто, Второй элементарный пример. Слово «платформа» может иметь разное смысловое значение: железнодорожная платформа, программная платформа, туфли на платформе, политическая платформа и т. д. Как автоматически устранить смысловую неоднозначность употребления слова «платформа» в некотором текстовом файле? А как это делать, учитывая разные языки?
Проекты для HP Labs тщательно отбираются . Как это происходит ?
- У нас есть офис открытых инноваций, который был создан для управления всеми связанными с инновациями программами HP Labs с мировым академическим сообществом. Мы считаем, что наука интернациональна, что ученые должны регулярно обмениваться результатами исследований, обсуждать их. В феврале HP Labs сформулировала более двух десятков исследовательских тем, которые выложены в открытом доступе на портале Лабораторий вместе с приглашением подавать проектные предложения на конкурсной основе, В конкурсе может участвовать любая академическая или исследовательская организация. Российские Лаборатории HP курировали две темы: построение моделей знаний и обработку текстов на естественном языке. Мы получили и проанализировали больше тридцати предложений со всего мира, и в итоге пять из них рекомендовали для финансирования: две темы из России и по одной из Германии (Университет Кобленц-Ландау), США (Wright State University) и Индии (Технологический институт в Бангалоре). Все пять рекомендаций, которые дали российские Лаборатории HP, были приняты финансистами и руководством HP Labs. В дальнейшем мы будем курировать эти проекты {к каждому прикреплен конкретный сотрудник из наших Лабораторий)
Расскажите чуть подробнее о двух российских работах из этой пятерки .
- Работа, которую мы проводим совместно с СПбГУ и группой профессора Бориса Новикова, нацелена на повышение скорости обработки поисковых запросов. Группа Новикова занимается семантическим кэшированием. Мы считаем, что при правильном формировании кэша, который в дальнейшем может использоваться при обращении к информационной системе, мы сумеем сократить время получения результатов поиска. Формирование такого кэша - задача нетривиальная. Работа Новикова состоит в исследовании процесса семантического кэширования на более высоких семантических уровнях относительно простых запросов xQuery. Работа с семантикой высокого уровня необходима при выполнении интеллектуального поиска среди слабоструктурированных документов. Грубо говоря, мы должны спрогнозировать и перетащить в кэш-память компьютерной системы данные, которые с наибольшей вероятностью потребуются пользователю для удовлетворения его информационного запроса в кратчайшее время.
У Максима Гринева и его группы есть хорошие наработки и даже продукты, которые разработчики собираются выводить на рынок. Это системы поиска контекстуальной информации, то есть то, что близко нашим Лабораториям в целом. В работе Гринева больший упор делается на обработку текстов на естественном языке (вспомним пример слова «платформа»). извлечение из них сущностей и смысло
вых отношений между сущностями, Под сущностями понимаются любые существительные с их смысловым описанием. Скажем, название компании, фамилия руководителя компании, профиль деятельности компании, технологический процесс, промышленный образец, финансовая транзакция и т. п,
Остра ли для HP Labs проблема промышленного шпионажа ? Сказывается ли открытость ваших программ для ученых разных стран ?
- У нас инцидентов не было, и я не знаю о таких случаях в других Лабораториях. Однако мы понимаем, что научные центры HP Labs - своего рода узловые точки, где занимаются самым что ни на есть «новьем», Ради безопасности, конечно, применяются некоторые технические средства, да и вся работа в Лабораториях, не исключая российскую, организована по определенному стандарту, который предусматривает
сохранность интеллектуальной собственности. Есть особые тренинги, где наши специалисты получают навыки работы с закрытой информацией, навыки фиксации хода собственных исследований в рабочих тетрадях, чтобы при необходимости можно было доказать свой приоритет в вероятных правовых коллизиях.
Что для вас было самым сложным на стадии организации работы Лабораторий в России ?
- Я очень волновался, когда соглашался возглавить этот проект. Исследования в России - непростая тема. На ноябрь 2007 года для меня не было очевидным, что мы сумеем достаточно быстро сформировать коллектив талантливых ученых, которые, получая дипломы в своих вузах, не стремились бы работать за границей. Неприятности для российской науки, начавшиеся в девяностых, привели к тому, что ученому у нас трудно рассчитывать на перспективы собственных исследований, особенно в физике, биологии или химии, где требуются большие вложения, главным образом в современное оборудование, высокочистые реактивы и среды. К счастью, последствия 90-х годов не так заметны сейчас в инженерных областях, особенно в ИТ. Опять же к счастью, наши контакты в академической среде позволили найти молодых, но серьезных сотрудников, которые готовы заниматься наукой и имеют для этого необходимые интеллектуальные способности.
Компания Hewlett - Packard применяет в собственной деятельности разработки HP Labs в сфере information management ?
- Мы вообще пытаемся сделать так, чтобы труд ученых имел максимальный коммерческий выход. Если та или иная идея доходит до прототипа технологии, которая на поверку оказывается эффективной, мы стараемся создать коммерческий продукт. Конечно, в первую очередь рассматриваются те продукты, которые могут быть использованы внутри компании. Тем не менее существуют и побочные результаты исследований, которые неинтересны самой HP в практическом смысле, но могут быть полезны другому бизнесу. В таком случае наша интеллектуальная собственность лицензируется для использования другими компаниями.