Читать онлайн "Программирование на языке Ruby" - Фултон Хэл - RuLit

Для многих классов имеется также сокращенная нотация. Наиболее распространены сокращения \d (любая цифра), \w (любой символ, входящий в состав «слова») и \s (пропуски — пробел, знак табуляции или новой строки):

str1 = "Wolf 359"

/\w+/.match(str1) # Соответствует "Wolf" (то же, что /[a-zA-Z_0-9]+/)

/\w+ \d+/.match(str1) # Соответствует "Wolf 359"

/\w+ \w+/.match(str1) # Соответствует "Wolf 359"

/\s+/.match(str1) # Соответствует " "

«Дополнительные» формы обычно записываются в виде прописной буквы:

/\W/ # Любой символ, не входящий в состав слова.

/\D/ # Все кроме цифр.

/\S/ # Все кроме пропусков.

Дополнительная информация, относящаяся только к Oniguruma, приводится в разделе 3.13.

3.9. Обобщенные регулярные выражения

Регулярные выражения, особенно длинные, часто выглядят загадочно. Модификатор x позволяет записывать регулярное выражение на нескольких строках. При этом пробелы и символы новой строки игнорируются, так что можно делать для наглядности отступы. Заодно разрешается оставлять комментарии, хотя это возможно даже в простых регулярных выражениях.

Чтобы привести несколько искусственный пример умеренно сложного регулярного выражения, предположим, что имеется такой список адресов:

addresses =

[ "409 W Jackson Ave", "No. 27 Grande Place",

"16000 Pennsylvania Avenue", "2367 St. George St.",

"22 Rue Morgue", "33 Rue St. Denis",

"44 Rue Zeeday", "55 Santa Monica Blvd.",

"123 Main St., Apt. 234", "123 Main St., #234",

"345 Euneva Avenue, Suite 23", "678 Euneva Ave, Suite A"]

Здесь каждый адрес состоит из трех частей: номер дома, название улицы и необязательный номер квартиры. Я предполагаю, что перед числом может быть необязательная строка No., а точку в ней можно опускать. Еще предположим, что название улицы может включать символы, обычно входящие в состав слова, а также апостроф, дефис и точку. Наконец, если адрес содержит необязательный номер квартиры, то ему должны предшествовать запятая и одна из строк Apt., Suite или # (знак номера).

Вот какое регулярное выражение я составил для разбора адреса. Обратите внимание, насколько подробно оно прокомментировано (может быть, даже излишне подробно):

regex = / ^ # Начало строки.

((No\.?)\s+)? # Необязательно: No[.]

\d+ \s+ # Цифры и пробелы.

((\w|[.'-])+ # Название улицы... может

\s* # состоять из нескольких слов.

)+

(,\s* # Необязательно: запятая и т.д.

(Apt\.?|Suite|\#) # Apt[.], Suite, #

\s+ # Пробелы.

(\d+|[A-Z]) # Цифры или одна буква.

)?

$ # Конец строки.

/x

Идея понятна. Когда сложность регулярного выражения достигает некоего порога (какого именно — дело вкуса), делайте его обобщенным, чтобы можно было добавить форматирование и комментарии.

Возможно, вы заметили, что я пользовался обычными комментариями Ruby (# ...), а не специальными, применяемыми в регулярных выражениях ((?#...)). Почему? Просто потому, что это разрешено! Специальный комментарий необходим только тогда, когда его следует закончить раньше конца строки (например, если в той же строке за комментарием продолжается регулярное выражение).

3.10. Сопоставление точки символу конца строки

Обычно точка соответствует любому символу, кроме конца строки. Если задан модификатор многострочности m, точка будет сопоставляться и с этим символом. Другой способ — задать флаг Regexp::MULTILINE при создании регулярного выражения:

str = "Rubies are red\nAnd violets are blue.\n"

pat1 = /red./

pat2 = /red./m

str =~ pat1 # nil

str =~ pat2 # 11

Этот режим не оказывает влияния на то, где устанавливается соответствие якорям (^, $, \A, \Z). Изменяется только способ сопоставления с точкой.

3.11. Внутренние модификаторы

Обычно модификаторы (например, i или m) задаются после регулярного выражения. Но что если мы хотим применить модификатор только к части выражения?

Существует специальная нотация для включения и выключения модификаторов. Заключенный в круглые скобки вопросительный знак, за которым следует один или несколько модификаторов, «включает» их до конца регулярного выражения. А если некоторым модификаторам предшествует минус, то соответствующие режимы «выключаются»: