Автообработка ЕЯ - лекция 6 сент

Красивый пдф файл с лекцией

Дз: читать до 2.1.6 (из этого файла) 

Сама лекция подкатом

Регулярные выражения и автоматы

1  Регулярные выражения используются для указания (specify) текстовых цепочек в случае, напр, веб поиска и в др приложениях, связанных с извлечением информации. 

2  Регулярные выражения могут реализовываться посредством автоматов в конечном состоянии (finite-state automation) 
3  Регулярные выражения (regular expression) используются для задания цепочек, кот нужно найти (в тексте) 
4  Регулярные выражения разработал Клини (Kleene) в 1956г 
5  Регулярные выражения есть некая формула на спец языке, кот используется для задания простых классов цепочек (string)
Цепочка есть последовательность символов: буквы, числа, пробелы, табуляция, пунктуация
 
6  Поиск по регулярному выражению требует задания шаблона (pattern) и корпуса текстов, в кот осуществляется поиск 
Basic regular expression patterns 
2. 1. 1. /woodchuck/ - пример рег.выражения 
7  Строка поиска может состоять из одного символа 
8. Регулярные выражения чувствительны к регистру 
Для указания диапазона (range) используется дефис (desh) -      , то есть    m.e. /[b-g]/ 9  /[0-9]/    - По этому регулярному выражению можно произвести поиск цифр от 0 до 9 10  
Caret ^      - этот символ используется в квадратных скобках для указания того символа, которого не должно быть:/[^\.]/        

"любой текст, в котором нет точки"
Этому регулярному выражению удовлетворяет любой кусочек текста, в котором нет точки 

Регулярное выражение для всех цепочек с букв beg, заканчивающиеся на n, при этом предпоследняя буква может быть любой:/[beg.n]/     - Точка означает любой символ (один), для множества символов * 
Постановка задачи
Написать рег выражение, кот бы искала артикль the/[the]/      - неправильное решение, так как чувствительно к регистру 

Categories:

Leave a Reply