Первая закладка, «Document», содержит важнейшие настройки обработки файла.
«Text structure» призвана помочь программе разобраться с разбиением текста на абзацы. Предусмотрены три положния радиокнопки.
«Auto» — предоставляет программе решать этот вопрос самостоятельно.
«Indented» — в начале каждого абзаца есть отступ.
«EmptyLines» — после каждого абзаца идет пустая строка.
ВНИМАНИЕ, БАГ!
При преобразовании форматированных текстов, программа считает новым абзацем строку, начинающуюся со знака «тире», «-». вне зависимости, есть отступ перед ней или нет. К счастью, этот глюк можно легко обойти. Можно деформатировать текст по принципу, «одна строка — один абзац», до того, как скормить его конвертору, а можно сделать это и в самой программе, используя регулярные выражения пре-обработки.
Далее идут настройки, относящиеся непосредственно к преобразованию файлов. Сразу скажу, что «ишкуштвенный интилект» программы, весьма и весьма слаб, поэтому большинство настроек приходится отключать.
«Preserve <form>» — оставлять содержимое, обрамленное тэгом form. Меню, голосования и т.д. Включать не стоит.
«Do not convert charset» — не менять кодовую таблицу файла.
«No epigraphs» — не распознавать эпиграфы. Даже эту нехитрую операцию программа делает не всегда корректно, поэтому ставим галочку.
«No </emptyline>» — не ставить пустых строк. Обычно эту опцию включать не требуется.
«No description» — под «description» здесь понимается аннотация. Не делать аннотацию. Однозначно ставим галочку.
«Allow 1000 error fixes» — разрешить программе попытаться восстановить битый документ. Пожалуй, галочку ставить не надо.
«Do not convert "quotes" to «quotes»» — не конвертировать компьютерные кавычки в типографские. Эта операция нужная, и обычно программа отрабатывает ее без нареканий. Не ставим галочку.
«Do not convert [text] and {text} into footnotes» — не конвертировать текст в квадратных и фигурных скобках в сноски. Ставить или не ставить галочку — дело вкуса. Я лично предпочитаю делать сноски вручную.
«Do not convert _italic_ текст» — не конвертировать текст, обрамленный знаками подчеркивания в курсив. Ставим галочку. Не стоит разрешать программе делать это самой. Очень часто получается так называемый «рваный» курсив (<emphasis>С</emphasis> <emphasis>ло</emphasis> <emphasis>во</emphasis>) или, того хуже, курсивным становится только первое слово абзаца.
«Do not restore broken paragraphs» — не восстанавливат разорванные абзацы. Ставим галочку.
«Do not detect poems» — не выделять стихи. Ставим галочку однозначно. Программа определяет стихи исключитенльно по коротким строчкам и делает это крайне коряво.
«Only use marked with <h#>|^T^U headers» — выделять как заголовки исключительно абзацы выделенные тэгами <h1>…<h6> и (или) esс-последовательностями ^T^U. Ставим галочку, если текст скачан из библиотеки Максима Мошкова (Lib.ru).
«Ignore line indent (spaces at the line start)» — не считать пробелы в начале сроки признаком абзаца.
«Convert leading '-' to long dash '—' (dialogs)» — конвертировать компьютерный «минус» в начале строки в длинное тире. Ставим галочку, особенно, если конвертируем DOS-текст.
Вторая закладка — «Links», предназначена для настройки обработки html-файлов.
Первый блок — «Images», относится к картинкам, если таковые во входном файле имеются.
Опция «Remove ALL images from the document» убирает вообще все картинки.
«Remove off-site images» — убирает только те картинки, которые располагаются не на сайте, с которого был загружен конкретный html.
«Preserve dynamic images» — не удалять картинки с URL динамического вида, например, счетчики.
Блок «Linked documents»
«Remove external links» — просто убирает линки, ведущие за пределы документа.
Включение опции «Follow links» делает активными все последующие опции.
Теоретически, если исходный текст представлен в виде пачки html-файлов и имеется некий файл-оглавление со ссылками, можно включить эту опцию, открыть файл-оглавление, а остальные программа подстыкует автоматически. На практике это зачастую получается довольно коряво.
«Follow off-site links» — следовать по линкам, ведущим за пределы сайта.
Рядом находится уровень следования (level deep).
«Only follow matching the expression» — следовать только линкам, совпадающим с нижеуказанным выражением.
«Never follow matching the expression» — НЕ следовать линкам, совпадающим с нижеуказанным выражением.
Третья закладка — «RegEXP» — обработка текста с помощью регулярных выражений.
Подробнее о том, что такое регулярные выражения и как ими пользоваться, можно прочесть в приложении Д в конце книги.
«Header detection regular expression» — регулярные выражения, с помощью которых программа может распознавать заголовки.
«Regular expression to run on-load» — регулярные выражения, предназначенные для обработки исходного текста.
Окошко разделено на два столбца. Первый (+new search pattern) предназначен для выражения поиска. Второй (+new replace pattern) — для выражений замены.
Регулярных выражений может быть несколько.
Вот как можно обойти вышеописанный баг с неправильным распознаванием новых абзацев.
в графе «+new search pattern» вводим:
\r\n(\S)
(перевод строки, новая строка, не-пробел).
А в графу «+new replace pattern» вводим:
$1
Здесь не видно, но перед «$1» должен идти пробел. То есть символы перевода строки и новой строки будут заменены на пробел. А само «$1» есть обращение к выражению в скобках в регэкспе поиска. Оно нужно, чтобы сохранить в неприкосновенности не-пробел, который идет сразу после символа новой строки.
«Regular expression to run on result document» — регулярные выражения, предназначенные для обработки выходного документа.
Устроено аналогично предыдущему.
И, последняя, четвертая вкладка — «Log» — не имеет никаких опций. Там отображается ход операции преобразования.
Программа умеет конвертировать файлы TXT, HTM, RTF, DOC. Для обработки последних она использует Micro$oft Word, для предварительного преобразования их в HTML.
С разбиением на секции программа справляется плохо. Требуется последующая правка в редакторе.
Резюме:
Неплохое средство для конвертирования файлов TXT и HTML.
Пользоваться программой имеет смысл, особенно, если книга конвертируется для того, чтобы «прочитать и удалить».
Для пакетного конвертирования файлов написана надстройка (front-end) Batch2FB.
§ 3.3 ExportXML
Программа представляет собой макрос M$ Word, предназначенный для преобразования в FB2 файлов DOC прямо из M$ Word.
Макрос нормально запускается в M$ Word XP и 2003.
Установка макроса заключается в копировании файла ExportXML.dot в папку автоматически запускаемых макросов Word. Обычно это папка C:\Program Files\Microsoft Office\Office10\Startup\. (Здесь и далее для M$ Office 2003 вместо «Office10» будет «Office11»).
Затем нужно разрешить запуск макросов. Меню «Сервис\Параметры», закладка «Безопасность», кнопка «Защита от макросов». На закладке «Уровень безопасности» установите переключатель-радиокнопку в положение «Средняя. Решение о запуске потенциально опасных макросов принимается пользователем». Правда, теперь при каждом запуске Word будет выскакивать надоедливое сообщение, не нужно ли отключить макросы.
Поэтому лучше поступить по-другому. Оставить высокий уровень безопасности и запускать нужные макросы без всяких запросов.