Этот список можно продолжать до бесконечности. Используя большие данные, исследователи в наши дни проводят эксперименты, о которых их предшественники не могли и мечтать.
Библиотека всего
В настоящей книге описывается история одного из таких экспериментов.
Объектом наших наблюдений были не люди, лягушки, молекулы или атомы. Эксперимент был связан с одним из самых потрясающих массивов данных в истории самой истории – цифровой библиотекой, цель которой (если верить ее создателям) состоит в том, чтобы включить все когда-либо написанные книги[24].
Как же возникла эта замечательная библиотека?
В 1996 году два старшекурсника из Стэнфорда, изучавших компьютерные технологии, работали над приостановленным ныне проектом, известным как Stanford Digital Library Technologies Project[25]. Цель проекта состояла в разработке прототипа библиотеки будущего, способной интегрировать мир книг с миром глобальной Сети. Студенты работали над инструментом, дающим пользователям возможность изучать библиотечные коллекции, перемещаясь от книги к книге в киберпространстве. Однако сделать это на практике было практически невозможно, поскольку в цифровом виде имелось довольно мало книг. Поэтому двое студентов применили свои идеи и навыки для перехода от одного текста к другому (по следу больших данных во Всемирной паутине), а затем превратили свою работу в небольшую поисковую машину, которую назвали Google.
К 2004 году проект, о котором заявляла компания Google – по «упорядочиванию всей имеющейся в мире информации», – уже реализовывался вполне успешно, благодаря чему у основателя компании Ларри Пейджа нашлось достаточно свободного времени, чтобы вернуться к своей первой любви – библиотекам. Как ни печально, но и к тому моменту количество книг, доступных в цифровой форме, оставалось незначительным. Однако изменилось другое – теперь Пейдж стал миллиардером. Поэтому он решил, что Google стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.
Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг[26]. Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.
Длинные данные
О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.
Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.
24
Что имеется в виду? Нет смысла оцифровывать каждую копию каждой книги из когда-либо написанных, хотя заметки на полях порой могут оказаться довольно увлекательными. См. Grafton Anthony, Weinberg Joanna. I Have Always Loved the Holy Tongue. Cambridge, MA: Harvard University Press, 2011. С другой стороны, многие издания наиболее знаменитых работ, переиздававшихся на протяжении столетий, порой очень отличаются. И эти различия могут быть весьма серьезными. См., к примеру, Rumsey Eric. Google Book Search: Multiple Editions Give Quirky Results // Seeing the Picture (12 октября 2010 г.), URL: http://goo.gl/6YNld. В случае
25
См. The Stanford Digital Library Technologies Project // Stanford University, URL: http://goo.gl/tstLQ; Google Books History // Google Books, URL: http://goo.gl/ueobb.
26
Отчасти по причинам, приведенным выше, а отчасти и из-за расплывчатости определения книги как физического объекта подсчет количества книг в обычной библиотеке может оказаться непростым делом. Поэтому данные о коллекции каждой библиотеки были взяты со страницы в «Википедии» по состоянию на 18 июля 2013 г. Стоит отметить, что эти цифры не всегда актуальны. Также нужно оговориться, что Стэнфорд уже начинает закрывать физические библиотеки и заменять их «библиотеками без книг». См. Krieger Lisa M. Stanford University Prepares for the «Bookless Library» // San Jose Mercury News (18 мая 2010 г.), доступно в сети Интернет: http://goo.gl/yauezp.