Выбрать главу

Тексты в дореволюционной орфографии вам вряд ли встретятся, поэтому мы не будем тратить время на их рассмотрение.

HTML документы

Текст анализируется и исправляется в соответствии с правилами экранной типографики для HTML-документов. Текст также проверяется на наличие ошибок ручного ввода.

Для того, чтобы начать работать с текстом, откройте его в окне программы с помощью команды меню Файл → Открыть, горячих клавиш <Ctrl> + <O> или щелкнув по кнопке Открыть файл. Все как в Word.

Программа поддерживает все основные типы текстовых файлов за исключением формата docx Word 2007.

Предположим, что файл, который нам необходимо обработать, имеет расширение doc.

Для примера возьмем страницу из компьютерного журнала со сложным форматированием (рис. 1). Теперь с помощью программы FineReader выполним ее распознавание, причем, чтобы усложнить задачу, выберем заниженное для распознавание текста разрешение - 200 dpi - и не будем пользоваться средствами исправления ошибок FineReader. Передадим распознанный текст в Word, сохраним его на жестком диске и откроем с помощью программы AfterScan. Сравнивая рисунки 1 и 2 замечаем, что программа уже проделала немалую работу: убрала со страницы иллюстрации, переформатировала текст в одну колонку и изменила стиль заголовка. Для простоты удалим текст врезок, хотя, если его нужно сохранить, все врезки из основного текста переносятся в коне статьи. Теперь можно выполнить OCR-чистку. Нажимаем клавишу <F8>.

Рис. 1 Страница из журнала
Рис. 2 Текст в окне программы AfterScan
Рис. 3. Исправление ошибок OCR

Откроется окно, показанное на рис. 3. здесь нам предлагается выбрать режим чистки (интерактивный или автоматический) и тип текста. Для того, чтобы понять, как работает программа, выберем интерактивный режим, в котором каждый этап чистки будет выполняться под контролем пользователя. Впоследствии, освоившись с программой, вы можете для экономии времени выбирать автоматический режим.

Поскольку в нашем распоряжении версия программы Express, выбирать тип текста мы не можем, по умолчанию выбран Текст в современной орфографии (OCR), который, впрочем, подходит для решения большинства задач. Нажимаем кнопку Продолжить. Откроется окно, показанное на рис. 4, в котором будет видно название выполняемой в данный момент задачи и другая служебная информация. Время выполнения чистки сильно зависит от объема текста и быстродействия вашего компьютера.

После окончания чистки откроется следующее окно (рис. 5). Из 616 слов в тексте программа обнаружила 91 слово, которых нет в словаре или которые программа читает ошибочными, причем из этих слов три повторяются неоднократно. В соответствии со своими интеллектуальными алгоритмами программа решила, что эти слова хоть неизвестные, но не ошибочные, и просит пользователя подтвердить это решение. С удовлетворением отмечаем, что программа не ошиблась. А вот если бы она допустила ошибку в каком-нибудь слове, его нужно было бы переместить в раздел Ошибочные слова для последующего исправления.

Нажимаем кнопку Продолжить. Откроется окно, показанное на рис. 6. В этом окне программа сообщает статистику проделанной правки текста и предлагает выполнить аналитические замены в словах. Эти замены производятся опять-таки по внутренним интеллектуальным алгоритмам программы. По умолчанию режим аналитических замен включен, но от него можно отказаться. Какие-либо советы по выбору режима здесь давать сложно: попробуйте оба и выберите тот, в котором программа покажет лучшие результаты.

Рис. 4 Окно выполнения задачи
Рис. 5. Первый шаг чистки

Нажмите кнопку Продолжить. Откроется окно, показанное на рис. 7. Это информационное окно, никаких операций с ним выполнять не требуется. Ознакомившись с его содержанием, нажмите кнопку Продолжить. Откроется окно, показанное на рис. 8. Это окно Журнала исправлений.

Журнал исправлений содержит список всех измененных и всех не распознанных слов. Если слово было изменено, то в журнале будут показаны исходный и измененный варианты. Если слово было не распознано, то в журнале оно будет показано со снятой галочкой и без замены. В этом случае можно либо установить флажок, подтверждая, что это слово не содержит ошибок, либо ввести правильное слово. Для этого нужно дважды щелкнуть мышью по этому слову.