Выбрать главу

Классификация по типу исторических источников

Существующие историко-ориентированные информационные системы варьируются по типам исторических источников, использованных в формировании контента. В этом смысле можно говорить о системах, основанных на письменных, статистических, вещественных, изобразительных, аудио-, видео-, мультимедийных, картографических и других источниках, а также на их различных комбинациях. Наиболее часто встречающиеся источники на всем протяжении развития историко-ориентированных информационных систем и баз данных – письменные, что связано как с их преобладанием в общем объеме исторических источников, так и с доступностью технологий для их перевода в цифровой формат. Вместе с тем характер используемых письменных источников и способы их репрезентации в системе существенно изменялись со временем. Историко-ориентированные базы данных конца 1980-х – 1990-х годов основывались преимущественно на массовых, прежде всего формулярных источниках: личных карточках, отчетных делопроизводственных документах, родословных книгах, формулярных списках, информация которых хорошо структурирована и удобным образом укладывается в формат реляционных баз данных.

Поскольку хранение, анализ и описание изображений в оболочке информационной системы гораздо легче текста, в ряде случаев текстовый источник заносится в информационную систему в виде нераспознанного изображения. Такие изображения могут быть сделаны на основе оригинала или копии (факсимильного издания) и представлены следующими форматами: jpeg, gif, pdf, djvu и др. Все чаще встречаются псевдоизображения, представленные в формате pdf, передающие, например, оригинальный шрифт источника, а также нераспознанный или плохо распознанный текст.

С развитием технологий круг источников, для представления информации которых используются информационные системы, расширяется. Одновременно меняется способ репрезентации источников в системе в направлении большей машиночитаемости, а также точности и детальности визуализации. В наибольшей степени это видно на примере письменных и вещественных источников. Применительно к текстовым источникам это может быть обозначено как переход от простой атрибуции к полнотекстовости с сохранением формальных и внешних особенностей документа и возможностью передачи многослойности текста. Сегодня все более характерным при репрезентации текстовых источников в информационной системе становится их представление в виде изображения, метаописания, распознанного и размеченного текста и, если необходимо, транскрипции, перевода[17].

В перспективе следует ожидать изменения способов репрезентации и для других источников, в частности аудио-, видео- и мультимедийных данных, для которых сегодня по-прежнему преобладают атрибутивное описание и наличие соответствующего файла, не предполагающие возможности полнотекстового поиска. Значительным шагом в этом направлении стала разработка инструментария для анализа массивов аудиоданных. Так, в Королевском технологическом институте (Стокгольм, Швеция) разработана программа[18] c открытым кодом для поиска по большим неструктурированным массивам аудиоданных. В ходе тестирования указанного инструментария на оцифрованных аудиоматериалах из архива Института языка и фольклора (Institute for Language and Folklore, ISOF) – а это порядка 13 тыс. часов звучания – была доказана эффективность разработанной методики анализа [Fallgren, Malisz, Edlund, 2018].

вернуться

17

Например, Древнерусские берестяные грамоты [Электронный ресурс]. URL: http://gramoty.ru (дата обращения: 10.04.2020).

вернуться

18

SoX – Sound eXchange [Электронный ресурс]. URL: http://sox.sourceforge.net (дата обращения: 10.04.2020).