профильность хранимой информации, т. е. наличие определенной концепции формирования информационного пространства, доступного пользователю, и политики ее реализации;
инвентаризация, в частности каталогизация (в самом широком смысле) объектов и различных их объединений, образующих это информационное пространство.
На концепцию ЭИ и ЭБ, а также на их программное обеспечение существенное влияние оказывают требования, связанные с представлением и возможностью использования информации.
Все информационное пространство ЭИ или ЭБ, доступное пользователю, должно быть представлено в виде совокупности самостоятельных объектов. В качестве таковых во многих случаях могут выступать электронные документы. Под электронным документом понимается законченное произведение, представленное на машиночитаемом носителе, имеющее автора и допускающее однозначную идентификацию.
Информационные объекты могут представлять собой текстовые произведения, изображения, фонограммы, базы данных или их фрагменты и т. д. Организация информационного пространства как совокупности объектов и однозначная идентификация последних необходимы для обеспечения эффективной навигации и выполнения некоторых видов информационных поисков. В качестве основы такой идентификации может выступать библиографическое описание объекта, поскольку основную часть фонда будут составлять документы, допускающие стандартную библиографическую обработку.
Очерк развития электронных библиотек
Принцип, лежащий в основе электронных библиотек, можно возвести к глубокой древности. Некоторые называют этот принцип александрийским - по названию Александрийской библиотеки. Суть его состоит в том, что зафиксированная информация хранится в виде одного материального объекта (документа) в одном месте, все желающие имеют к ней доступ и могут по мере необходимости ее копировать для своих потребностей. Как таковой, этот принцип противостоит Гутенбергову, согласно которому информация фиксируется в виде определенного количества идентичных материальных объектов (документов) - тиража, экземпляры которого хранятся в разных местах, и все желающие имеют доступ к отдельным экземплярам, в частности могут приобретать их по мере необходимости. Однако действительный переход от Гутенберговой (книгопечатной) эпохи к новой информационной парадигме (александрийского типа) стал возможен лишь с развитием современных информационных технологий.
Среди первых работ, в которых было предсказано появление электронных библиотек и описаны их общие принципы, обычно называют статью В. Буша (V. Bush) "Как мы можем думать" (1945) и книгу Дж. С. Р. Ликлидера (J. C. R. Licklider) "Библиотеки в будущем" (1965). В первой, написанной тогдашним директором Американского агентства научных исследований, демонстрировались потенциальные возможности, которые технология может предоставить ученым для сбора, хранения, поиска и обработки информации. Предложенная А. Бушем концепция информационной системы, названной им "Memex", базировалась на использовании фотографий для хранения информации и в определенном смысле предвосхитила дальнейшее изобретение и внедрение микрофильмов и микрофиш. Однако главное значение его статьи в том, что в ней наглядно показана связь между новыми технологиями, информацией и развитием научных исследований. Дж. Ликлидер был одним из сотрудников Массачусетского технологического института и изучал влияние цифровых вычислений на будущее библиотек. В своей работе он перечислял исследования и разработки, необходимые для того, чтобы создать истинно дружественную по отношению к пользователю ЭБ.
Использование компьютеров для хранения и обработки библиотечной информации началось с 60-х годов. Одним из первых успешных примеров было создание (в конце 60-х) в Библиотеке Конгресса формата MARC (Machine-Readable Cataloging) для создания и ведения машиночитаемых каталогов. Его использование в Центре компьютерных онлайновых библиотек (Online Computer Library Center, OCLC) дало возможность предоставить доступ к каталожным записям многим библиотекам, что позволило им сэкономить значительные средства.
Зарождение ЭБ в современном смысле относится к концу 80-х годов, когда стали создаваться первые электронные библиотеки научных журналов (проекты "Mercury", CORE, "Tulip", 1987-1993 гг.; JSTORE, с 1995 г.; "High Wire Press", с 1995 г., и др.). Эти проекты преследовали как научные, так и экономические цели (создание архива важнейших журналов и обеспечении широкого доступа к нему, сокращение расходов библиотек за счет устранения дублирования коллекций журналов). Кроме того, решались чисто технические задачи, например, проблема адекватного отображения на экране греческих, математических и иных специальных символов. С середины 90-х годов многие научные журналы стали издаваться только в электронной форме. Это оказалось и экономичнее, и эффективнее (подробнее см. [29]).
В это же время многие печатные периодические издания широкого профиля (журналы, газеты, бюллетени и т. д.) стали создавать свои электронные версии включая оцифрованные архивы прежних выпусков, и предоставлять к ним платный или чаще бесплатный доступ через Интернет.
Кроме того, крупные библиотеки и музеи приступили к оцифровке хранящихся у них материалов, прежде всего редких, старинных и находящихся под угрозой физического разрушения, чтобы сохранить их для будущего и сделать общедоступными. Такие проекты, получившие название конверсионных, основываются, как правило, на постраничном сканировании рукописных или печатных документов с последующим сохранением изображений в графических файлах с высоким разрешением. Затем на основе этих файлов, составляющих репозиторий коллекции, создаются облегченные графические или текстовые варианты представления информации, которые могут передаваться по сети. Примерами проектов такого рода могут служить программы "American Memory" (с 1989 г. по настоящее время) и "National Digital Library" (c 1990 г., в 1998 г. преобразована в единую межведомственную программу - "Digital Libraries Initiative - Phase 2"), целью которых является перевод в электронную форму материалов, значимых для истории и культуры США. С середины 90-х годов подобные проекты стали осуществляться и в России (оцифровка коллекций Эрмитажа, редких рукописей в РГБ, ВГБИЛ и т. д.).
На начальных этапах становления Интернета значительный вклад в построение электронных библиотек внесли любители-энтузиасты, создавшие большое число ресурсов, некоторые из которых получили весьма широкую известность. Наиболее известными проектами такого рода являются "Проект Гутенберг" (http://promo.net/pg), инициированный в 1990 г. американским программистом М. Хартом, и российская "Библиотека Мошкова" (http://lib.ru), запущенная в ноябре 1994 г. и к августу 2001 г. включавшая в себя более 17 тыс. текстовых файлов общим объемом более 2,5 Гб, что почти на порядок превосходит текстовые объемы "Проекта Гутенберг" (около 2 тыс. текстов). Столь значительно различие объясняется не только русским "литературоцентризмом", но и в первую очередь спецификой отношения к интеллектуальной собственности и авторскому праву на Западе и в России (подробнее см. [1; 3; 10]). Оба проекта развиваются благодаря активности добровольцев, которые бесплатно набирают или сканируют и присылают тексты "библиотекарям". Однако если М. Мошков публикует все произведения, которые ему присылают, гарантируя, что снимет публикацию, если автор произведения заявит протест (чего, как правило, не случается) [16], то "Проект Гутенберг", как и другие любительские ЭБ на Западе, может легально публиковать только те тексты, срок авторских прав на которые истек и которые перешли в публичное пользование (public domain). Этот срок постоянно увеличивается законодателями, и в настоящее время в США и некоторых других странах составляет 50 лет после смерти автора. Понятно, что это резко сужает возможности западных некоммерческих ЭБ.
При всей несомненной общественной значимости любительские проекты обладают рядом существенных недостатков по сравнению с профессиональными ЭБ [9]. Главные из них таковы:
стихийность формирования фондов, неясность принципов отбора;
случайность и неполнота собраний;
недостаточная текстологическая база: произвольные источники публикации, опечатки, отсутствие необходимой библиографической информации; отсутствие справочно-комментаторского аппарата;