И это еще относительно доброкачественная петля. Может быть и иначе.
Мы знаем, что происходит, когда учителя считают учеников тупыми: те становятся еще тупее. И одном эксперименте, который провели еще до учреждения комиссий по этике, учителям дали результаты теста, которые, как утверждалось, показывали IQ и степень одаренности учеников, поступающих в их класс. Однако им не сказали, что результаты были перераспределены случайным образом. Спустя год ученики, которых представили как смышленых, заметно увеличили свой IQ. Те же, чей уровень, согласно тестам, был ниже среднего, такого не добились[267].
Так что же происходит, когда Интернет считает вас тупицей? Персонализация, основанная на предполагаемом IQ, — не столь уж фантастический сценарий. В Google Docs, например, есть полезный инструмент для автоматической оценки уровня сложности написанного текста[268]. Даже если ваш уровень образования еще не попал в базу данных Acxiom, его легко может вычислить любой располагающий несколькими вашими электронными письмами и сообщениями в Facebook. Пользователям, чьи тексты говорят о наличии университетского диплома, могут чаще показывать статьи из New Yorker, а тем, кто пишет более простым языком, — из New York Post.
В мире вещательных СМИ предполагается, что все представители аудитории способны читать и обрабатывать информацию примерно на одном уровне. За стеной фильтров для этого нет никаких оснований. И это, с одной стороны, здорово: масса людей, отказавшихся от чтения, потому что газеты стали слишком заумными, могут снова начать потреблять письменный контент. Но если никто не потребует повышения качества, то эти люди надолго застрянут в третьем классе.
Поступки и приключения
Иногда передача алгоритмам права решать, что мы увидим и какие возможности нам предложат, приносит более честные результаты. Компьютер может игнорировать расу и пол, на что люди обычно не способны. Но это лишь в случае, если соответствующие алгоритмы добросовестны и проницательны. Иначе они будут просто отражать социальные нормы той культуры, которую обрабатывают.
В ряде случаев алгоритмическая обработка персональных данных может привести даже к большей дискриминации, чем если бы этим занимались люди. Например, программа, помогающая компаниям процеживать массу резюме в поисках подходящих соискателей, может «учиться», принимая во внимание, сколько рекомендованных ею кандидатов были наняты. Если работодатель выбирает девять белых подряд, то программа может сделать вывод, что компания не заинтересована в черных, и исключит их из дальнейшего поиска. «Во многих отношениях, — пишет социолог Дэлтон Конли из Нью-Йоркского университета, — такая сетевая категоризация более коварна, чем банальная сортировка по расе, классу, полу, религии или любому другому параметру»[269]. Среди программистов такая ошибка получила название «чрезмерно близкой подгонки».
Онлайн-сервис видеопроката Netflix работает на основе Алгоритма CineMatch. Сначала все было довольно-таки просто. Если он взял на прокат первый фильм трилогии «Властелин колец», то Netflix мог изучить, какие фильмы брали другие люди, посмотревшие его. Если многие из них просили «Звездные войны», то велика вероятность, что и я захотел бы их посмотреть.
Этот метод анализа называется k-NN (метод «к-ближайших соседей»[270]), и с его помощью CineMatch научился довольно ловко угадывать, что люди хотели бы посмотреть, исходя из тех фильмом, что они уже брали, и оценок, которые им поставили. К 2006 году CineMatch мог с точностью до балла предсказывать оценку, которую пользователь выставит любому из многих сотен тысяч фильмов в коллекции Netflix. Он дает более точные рекомендации, чем большинство людей. Человек-продавец ни за что не порекомендовал бы фильм «Молчание ягнят» поклонникам «Волшебника страны Оз», однако CineMatch знает: людям, которым по душе один из этих фильмов, зачастую нравится и другой. Но главу Netflix Рида Хастингса это не устроило. «Сейчас мы вывели модель Т[271], а возможно гораздо большее», — сказал он журналисту в 2006 году[272]. 2 октября 2006 года на сайте Netflix появилось объявление: «Мы заинтересованы. Цена вопроса — 1 миллион долларов». Netflix опубликовал колоссальные массивы данных — рецензии, записи о прокате фильмов и другую информацию из своей базы, очищенную от всего, что могло бы указать на конкретного пользователя. И компания была готова заплатить миллион долларов человеку или команде, которые смогут опередить CineMatch по точности предсказаний хотя бы на 10 процентов. Конкурс Netflix Challenge был открыт для всех. «Все, что вам нужно, — это компьютер и классные идеи», — заявил Хастингс в интервью New York Times[273].
За девять месяцев в конкурсе поучаствовали около 1800 команд из более чем 150 стран. Они опирались на идеи машинного обучения, коллаборативной фильтрации, нейронных сетей и интеллектуального анализа данных. Обычно конкурсанты, соревнующиеся за такой крупный приз, действуют в тайне от других. Но Netflix призывала конкурирующие группы общаться друг с другом и открыла интернет-форум, где они могли совместно работать над общими затруднениями. Если почитать этот форум, можно практически пощупать те проблемы, которые терзали конкурсантов во время трехлетней погони за более совершенным алгоритмом. Проблема чрезмерно близкой подгонки возникала снова и снова.
При создании алгоритмов анализа данных возникают две большие сложности. Первая — найти все структуры и вычленить их из шума. Вторая — противоположность первой: не выводить структур, которых на самом деле не существует. Формула, описывающая последовательность «1,2,3», может звучать как «предыдущее число плюс один» или же как «положительные простые числа от меньшего к большему». Вы не сможете выбрать верную, пока не получите больше данных. А если вы слишком поспешно делаете выводы, то занимаетесь чрезмерно близкой подгонкой.
В прокате фильмов риски невелики: в прошлом, например, многие зрители были убеждены, что если им понравились фильмы «Крестный отец» и «Крестный отец — 2», то понравится и «Крестный отец — 3». Но проблема чрезмерной подгонки — это, по сути, одна из центральных, неустранимых проблем стены фильтров. В сущности, это создание стереотипов.
Под «стереотипами» (этот термин употреблял еще Уолтер Липпман) часто понимаются злонамеренные, ксенофобские представления, не соответствующие действительности. Классический пример — «люди с таким-то цветом кожи глупее других». Однако даже если стереотипы и их негативные последствия в целом довольно точно описывают реальность, они все равно несправедливы по отношению к конкретным людям.
Маркетологи уже давно изучают «серую зону» между областью возможных прогнозов и теми прогнозами, которые оказались справедливы. По словам Чарли Страйкера, бывалого игрока отрасли поведенческого таргетирования, выступавшего на саммите «Социальный граф», армия США добилась поразительных успехов, используя данные социальных графов для рекрутирования новых солдат[274]. Ведь если шестеро ваших друзей по Facebook записались в армию, вероятно, и вы рассмотрите такую возможность. Выводить определенные заключения о вас на основании того, каким людям нравитесь вы или какие люди дали на вас ссылку, — это весьма неплохой бизнес. И метод этот работает не только в армии. Банки начинают использовать социальные данные, чтобы определить, кому можно давать кредит: если ваши друзья не платят вовремя, есть шанс, что и вы окажетесь таким же никчемным клиентом. «Решение будет приниматься исходя из кредитоспособности ваших друзей», — говорит Страйкер. «У этой технологии есть очень мощные варианты применения, — сказал еще один предприниматель, занимающийся социальным таргетированием, в интервью Wall Street Journal. — Кто знает, как далеко мы зайдем?»[275]
Это вызывает тревогу еще и потому, что от компаний не требуют объяснять, на основе чего они принимают решения. В результате суждение о вас вам неизвестно, и вы не сможете его оспорить. К примеру, Linkedln, социальная сеть по поиску работы, предлагает спрогнозировать вашу дальнейшую карьеру: сравнив ваше резюме с резюме других людей из вашей области, продвинувшихся дальше, она может предсказать, где вы окажетесь через пять лет. Программисты компании надеются, что вскоре она сможет подсказывать решения, которые принесут вам больше пользы: «IT-профессионалы среднего уровня вроде вас, окончившие бизнес-школу Wharton, зарабатывают на 25 тысяч долларов в год больше, чем те, кто в ней не учился». Это весьма полезный сервис. Но представьте, что будет, если Linkedin передаст эти данные корпоративным клиентам, чтобы помочь им отсеять людей, которые по прогнозу оказываются неудачниками. Это может произойти в тайне от вас, вы не сможете поспорить, доказать, что прогноз ошибочен. Здесь не действует презумпция невиновности.
267
Robert Rosenthal and Lenore Jacobson. Teachers' Expectancies: Determinants of Pupils' IQ Gains. Psychological Reports, 19, 1966, 115–118.
268
Такой инструмент давно есть и в Microsoft Word, и в других текстовых редакторах.
269
Dalton Conley. Elsewhere, U. S. A.: How We Got from the Company Man, Family Dinners, and the Affluent Society to the Home Office, BlackBerry Moms, and Economic Anxiety. New York: Pantheon Books, 2008, 164.
270
к в данном случае — число анализируемых людей (или других объектов), похожих на вас (или исходный объект) своими характеристиками.
271
Имеется в виду Ford Model Т, выпускавшийся с 1908 по 1927 год и ставший первым действительно доступным автомобилем.
272
Geoff Duncan. Netflix Offers $lMln for Good Movie Picks. Digital Trends, Oct. 2, 2006, www.digitaltrends.com/computing/netflix-offers-l-mln-for-good-movie-picks.
273
Katie Hafner. And If You Liked the Movie, a Netflix Contest May Reward You Handsomely. New York Times, Oct. 2, 2006, www.nytimes.com/2006/10/02/technology/02netflix.html.
274
Charlie Stryler. Marketing Panel at 2010 Social Graph Symposium, Microsoft Campus, Mountain View, CA, May 21, 2010.
275
Angwin. Web's New Gold Mine. Wall Street Journal, July 30, 2010, http://online.wsj.com/article/SB10001424052748703940904575395073512989404.html.