Читать онлайн "Цифровой журнал «Компьютерра» № 204" - Коллектив авторов - RuLit

— Нужно, если с этим связаны паттерны активности. Например, человек был в командировке и прилетел из Нью-Йорка в Сан-Франциско на конференцию. Если раньше он читал местные новости Нью-Йорка, то автоподстройка новостей позволит ему быстрее сориентироваться и не даст пропустить важные события, связанные с этой конференцией в другом городе.— Новостной сервис использует географическую привязку, но нужно ли это?

— Одна и та же новость может попасть или нет в подборку в зависимости от целого ряда причин. Человек может интересоваться разными вещами днём и вечером, дома и на работе. Это всё эвристическая оценка информационных потребностей. Например, известно, что многие люди хотят вечером получать лексически более лёгкие тексты. Они уже устали за день от чтения сложных материалов. — По каким критериям отбираются новости?

— Многое оценивается экспериментальным путём. Сначала выясняем, насколько люди задерживаются на странице с новостью и как быстро её прокручивают. Правда, здесь трудно использовать только критерии уделяемого времени. Для оповещения о некоторых событиях бывает достаточно увидеть заголовок и иллюстрацию, и это уже релевантная информация, даже если саму новость не читали. Поэтому мы пытаемся находить и какие-тотакие-то— Как вы формулируете у себя эти параметры попадания контента к человеку? другие позитивные критерии. Например, сколько людей отметили эту новость у себя и поделились ссылкой с другими. Часто нам прямо сообщают, что вот новости интересны и хочется видеть больше подобных — или наоборот, что эту тему больше никогда не надо показывать.

— Есть подборка так называемых features: это компании, персоны, места, объекты и отдельные темы. Их около миллиона, и они используются для автоматического анализа текста.— Каков внутренний механизм сервиса в общих чертах?

Например, где-то в новостях впервые упоминается Google Glass. Система ещё не знакома с этим понятием, но уже может по контексту сделать вывод, что это новый продукт компании Google. Затем выполняется поиск по другим источникам. Так можно составить представление о типе устройства и его свойствах.

Если становится много публикаций про Bitcoin и Litecoin, то выделяется новая актуальная тема — криптовалюта. Кроме того, есть масса скрытых классификаторов. По ним можно определить, например, что текст имеет республиканский или демократический уклон.

Другое важное направление — построение и проверка гипотез. Например, мы предполагаем, что люди из сферы финансов часто играют в гольф. Начинаем показывать каждому из них лучшие новости о гольфе и оцениваем реакцию, подтверждая или опровергая свою гипотезу. Цель — постоянно улучшать знания о пользователе, находить новые интересы и паттерны его поведения.

Это примеры прямой логики или парадигмы Big Data? Последняя ищет неявные, парадоксальные на первый взгляд связи.

Гипотезы как появляются в результате работы технологий машинного обучения, так и создаются руками. При этом многие из них получаются гораздо менее явными, чем в примере с гольфом.

— Это сложный термин. Его все используют, но у всех он означает разные вещи. В классическом понимании Big Data — это любая задача, где размер данных превышает текущие возможность простого анализа, но сама парадигма для всех разная. Сейчас мы не оперируем такими объёмами информации, как Amazon или Google, но наши данные намного более рафинированы. Мы пытаемся постоянно фильтровать огромный поток исходных текстов новостей и сужать их до относительно компактного набора терминов, понятных для систем машинной логики.— Что вы думаете о Big Data в целом?

Обычно под технологиями Big Data понимают процедуру получения сложные выводов по результатам анализа неструктурированных данных объёмом в петабайты. У нас другой путь. Мы стараемся учесть интересы людей в реальном времени. Каждый сервис самодостаточен и «знает» о человеке всё, что требуется ему для работы, поэтому он может быстро распределить входящий поток новостей по темам и делать персонализированную подборку.

— История запросов показывает потребности человека в настоящий момент или в недавнем прошлом. У Amazon хранится история покупок людей за многие годы. Это отличные данные для предсказания их потребностей в будущем, особенно возникающих с постоянной периодичностью. Когда есть такая же история просмотренного контента, её гораздо сложнее превратить в деньги. Либо нужно перевести её на другой сценарий (например, на ту же историю покупок), либо найти, как можно монетизировать сам акт чтения новостей.— Что насчёт схемы монетизации? Мне кажется, ваш сервис может предложить гораздо более тонкую рекламную модель, чем поисковые системы.