Программа обработки текста после сканирования AfterScan
В прошлой главе, рассматривая работу программы оптического распознавания текста FineReader, мы увидели, что текст после сканирования и распознавания нуждается в корректировке, и чем сложнее форматирование текста и чем больше его объем, тем больше усилий придется затратить, чтобы привести его к приемлемому для дальнейшей работы виду.
Программа FineReader и текстовый процессор Word предоставляют мощные и разнообразные средства для решения этой задачи, но изрядную часть работы все-таки приходится делать вручную. Существует не очень известная в России программа AfterScan, которая в ряде случаев способна выполнить корректировку отсканированного текста автоматически. Эта программа может использоваться для обработки и правки текстов больших объемов, введенных с клавиатуры или полученных при помощи программ оптического распознавания текстов, причем для эффективной работы программы важно знать, каким именно способом получен текст.
Авторы программы утверждают, что в ее основе лежат алгоритмы, позволяющие анализировать и исправлять ошибки и опечатки практически любых типов, причем в отличие от программы проверки грамматики Word, программа AfterScan может исправлять ошибки и опечатки самостоятельно.
Рассмотрим эту программу более подробно.
Программа AfterScan выпускается в четырех версиях
AfterScan Express - shareware-версия для домашнего пользования;
AfterScan Professional - для издательств и компаний;
AfterScan Antique - для обработки текстов в старорусской орфографии и перевода его в современную орфографию;
AfterScan Webmaster - для пакетной обработки большого числа документов, например, для обработки текстов, размещаемых на Web-сайтах.
Различия между функциональными возможностями различных версий программ видны из таблицы:
Обработка текстов | Express | Professional | Antique | Webmaster |
Обработка ошибок OCR | ♦ | ♦ | ♦ | ♦ |
Обработка ошибок ручного ввода | ♦ | ♦ | ♦ | |
Обработка старорусских текстов | ♦ | |||
Перевод старорусских текстов в современную орфографию | ♦ | |||
Чистка пунктуации | ♦ | ♦ | ♦ | ♦ |
Чистка отступов и пробелов | ♦ | ♦ | ♦ | ♦ |
Обработка латинских букв в русских словах | ♦ | ♦ | ♦ | ♦ |
Восстановление специальных символов других языков | ♦ | ♦ | ♦ | ♦ |
Восстановление римских цифр | ♦ | ♦ | ♦ | ♦ |
Обнаружение сокращений и аббревиатур | ♦ | ♦ | ♦ | ♦ |
Обнаружение математических и химических формул | ♦ | ♦ | ♦ | ♦ |
Обнаружение HTML-тегов и скриптов | ♦ | |||
Склейка слов с переносами | ♦ | ♦ | ♦ | |
Склейка слов с отбивкой пробелами | ♦ | ♦ | ♦ | |
Поиск новых слов в нескольких файлах | ♦ | |||
Прочие функции | ||||
Функция переформатирования текстов | ♦ | ♦ | ♦ | ♦ |
Улучшенный диалог поиска и замены | ♦ | ♦ | ♦ | ♦ |
Поддержка словаря пользователя и редактор | ♦ | ♦ | ♦ | |
Ручная защита фрагментов текста от изменений | ♦ | ♦ | ♦ | |
Сохранение Журнала вместе с документом | ♦ | ♦ | ♦ | |
Пакетная обработка большого числа файлов | ♦ | |||
Пакетная конверсия формата файлов | ♦ | |||
Цена (на момент написания книги, для граждан СНГ, рублей) | 300 | 800 | 1500 | 2100 |
Программа AfterScan Express - условно бесплатная[1], ее оценочную версию, которая будет работать в течение 30 дней, можно загрузить с сайта программы по адресу: http://http://www.futura.ru/hg/ase51en.exe[2] (для английских текстов), размер файла - 2,9 Мб. На момент написания книги на сайте разработчиков была выложена сборка программы за номером 023.