Читать онлайн "Разработка приложений в среде Linux. Второе издание" - Джонсон Майкл К. - RuLit

Массив структур regmatch_t используется для представления местоположения подвыражений в регулярном выражении.

#include <regex.h>

typedef struct {

regoff_t rm_so; /* индекс байта в строке в начале сопоставления*/

regoff_t rm_eo; /* индекс байта в строке в конце сопоставления*/

} regmatch_t;

Первый элемент regmatch_t описывает всю совпавшую строку; обратите внимание, что вся эта строка содержит любой символ начала строки, включая хвостовой символ новой строки, независимо от того, задано ли значение REG_NEWLINE.

Следующие элементы массива хранят подвыражения, заключенные в скобки, в том порядке, в котором они присутствуют в регулярном выражении, в порядке расположения открывающих скобок. (В коде на языке С элемент i эквивалентен выражению замены \i в программах sed или awk.) В несовпадающих подвыражениях член regmatch_t.rm_so имеет значение -1.

В следующем коде производится сопоставление строки с регулярным выражением, содержащим подвыражения. После сопоставления на экран выводятся все совпавшие подвыражения.

1: /* match.с */

2:

3: #include <alloca.h>

4: #include <sys/types.h>

5: #include <regex.h>

6: #include <stdlib.h>

7: #include <string.h>

8: #include <stdio.h>

9:

10: void do_regerror(int errcode, const regex_t *preg) {

11: char *errbuf;

12: size_t errbuf_size;

13:

14: errbuf_size = regerror(errcode, preg, NULL, 0);

15: errbuf = alloca(errbuf_size);

16: if (!errbuf) {

17: perror("alloca");

18: return;

19: }

20:

21: regerror(errcode, preg, errbuf, errbuf_size);

22: fprintf(stderr, "%s\n", errbuf);

23: }

24:

25: int main() {

26:

27: regex_t p;

28: regmatch_t *pmatch;

29: int rerr;

30: char *regex = "(^(.*[^\\])#.*$)|(^[^#]+$)";

31: char string[BUFSIZ+1];

32: int i;

33:

34: if ((rerr = regcomp(&p, regex, REG_EXTENDED | REG_NEWLINE))) {

35: do_regerror(rerr, &p);

36: }

37:

38: pmatch = alloca(sizeof(regmatch_t) * (p.re_nsub+1));

39: if (!pmatch) {

40: perror("alloca");

41: }

42:

43: printf("Введите строку: ");

44: fgets(string, sizeof(string), stdin);

45:

46: if ((rerr = regexec(&p, string, p.re_nsub+1, pmatch, 0))) {

47: if (rerr == REG_NOMATCH) {

48: /* эту ситуацию может обработать regerror,

49: * но зачастую она обрабатывается особым образом

50: */

51: printf("Строка не совпадает с %s\n", regex);

52: } else {

53: do_regerror(rerr, &p);

54: }

55: } else {

56: /* сопоставление закончено */

57: printf("Строка совпадает с регулярным выражением %s\n", regex);

58: for (i = 0; i <= p.re_nsub; i++) {

59: /* вывод на экран совпавшей части (частей) строки */

60: if (pmatch[i].rm_so != -1) {

61: char *submatch;

62: size_t matchlen = pmatch[i].rm_eo - pmatch[i].rm_so;

63: submatch = malloc(matchlen+1);

64: strncpy(submatch, string+pmatch[i].rm_so,

65: matchlen);

66: submatch[matchlen] = '\0';

67: printf("совпавшее подвыражение %d: %s\n", i,

68: submatch);

69: free(submatch);

70: } else {

71: printf ("нет совпадения с подвыражением %d\n", i);

72: }

73: }

74: }

75: exit(0);

76: }

В примере регулярного выражения из программы match.с имеется три подвыражения. Первое из них представляет собой всю строку, содержащую текст, за которым следует символ комментария, вторым является текст в строке, предшествующей символу комментария, а третье представляет всю строку без символа комментария. Для строки, в начале которой содержится комментарий, элементу rm_so во втором и третьем элементе из массива pmatch[] присвоено значение -1. Для строки, в начале которой содержится комментарий, значение -1 присваивается первому и второму элементу; для строки, не содержащей символы комментария, второму и третьему элементу присваивается значение -1.

Каждый раз после завершения работы с компилированным регулярным выражением его необходимо освободить, чтобы избежать утечек памяти. Для освобождения памяти необходимо использовать функцию regfree(), но не free():

#include <regex.h>

void regfree(regex_t *preg);

В стандарте POSIX четко не сказано, следует ли использовать функцию regfree() каждый раз при вызове функции regcomp(), или же только после того, как вы в последний раз вызывали функцию regcomp() в одной структуре regex_t. Таким образом, чтобы избежать утечек памяти, в промежутках между использованием структур regex_t необходимо вызывать функцию regfree().

Всякий раз когда функция regcomp() или regex() возвращает ненулевой результат, функция regerror() может предоставить подробное сообщение, в котором будет указано, в чем состоит ошибка. Она записывает по возможности все сообщение об ошибке в буфер и возвращает размер всего сообщения. Поскольку вы заранее не знаете, какой размер будет иметь сообщение, то сначала вам необходимо узнать его размер, а затем распределить и использовать буфер, как показано в следующем далее примере кода. Поскольку этот вариант обработки ошибок быстро становится устаревшим, и вам придется включать его как минимум дважды (один раз после функции regcomp() и один раз после функции regex()), мы советуем вам написать код собственной оболочки функции regerror(), как показано в строке 10 из листинга math.с.

23.2.3. Простая утилита grep

grep является популярной утилитой, определенной в стандарте POSIX, которая предлагает возможности поиска регулярного выражения в текстовых файлах. Ниже показана простая (не соответствующая стандарту POSIX) версия утилиты grep, реализованная с помощью функций стандартного регулярного выражения.