На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и <способ вычищения>», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за… и…» нам не светит.
3. Перевод в конечный формат
Итак… переводим книгу в нужный формат. Я здесь рассматриваю только формат PDF как единственно простое, быстрое, кардинальное решение «форматного вопроса»… стойте. Где-то я уже это говорил. Ах, да. Ну, хорошо, есть много форматов в которые можно перевести книгу, в том числе «текстовые». Нравится вам вычитывать книгу — вычитывайте. Только уж вычитывайте как следует, а то скачаешь с интернета книжку в текстовом формате — там опечаток море.
Я же объясню как сделать книгу в PDF, причём используя технологию ClearScan. ClearScan — передовая технология. Если сам по себе формат PDF не идеален для хранения сканов (получается либо большого размера файл, либо, если сжать побольше, некачественное изображение) то при применении ClearScan, этот формат приближается к идеальному.
Говорю так, потому что на самом деле принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть из надо в графическом редакторе.
Можно перевести книгу в текстовой формат — TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»). Эти форматы как «маленькие TIFF-ы» — книжка остаётся в графическом формате, но занимает меньше места.
В теории, DJVU больше подходит для отсканированных книг чем PDF, так как файлы получаются меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж….
Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.
В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.
Ссылка на статью на английском языке о технологии ClearScan:
• http://blogs.adobe.com/acrolaw/2009/05/better pdf ocr clearscan is smal/
Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов). Поэтому процесс чистки изображения после сканера (выравнивание освещённости, очистка от мусора, поднятие разрешения до 600dpi) необходим для получения качественного текста и максимально маленького размера файла.
Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно <нехорошее слово>. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.
Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File ^ Combine ^ Merge Files into a Single PDF. Открывается окошко в котором мы
• справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана)
• справа внизу, где видны три странички, выбираем самую большую страничку для лучшего качества