Приемы и методы поиска при работе с НКРЯ

Материал из wiki
Перейти к: навигация, поиск


Автор: Участник:Улитин Борис


С конца 80-х годов прошлого века в русском языкознании получила свое развитие корпусная лингвистика, и сегодня русисты имеют в своем распоряжении Национальный корпус русского языка (НКРЯ).

Первоначальные корпусные лингвистические исследования решали проблемы лингвостатистики - сводились к подсчету частот встречаемости различных языковых элементов: слов, графем, морфем, словосочетаний.

Приведем пример такого запроса. Предположим, нам необходима статистика употребления Л.Н.Толстым слов «война» и «мир» в своих произведениях. Последовательность действий пользователя представлена в презентации. Отметим, что возможность задания подкорпуса является чрезвычайно мощным инструментом, так как позволяет отобрать нужные тексты по таким критериям, как автор, название, год создания и др. Но для такого типа запросов в НКРЯ, к сожалению, отсутствуют средства графической интерпретации, поэтому приходится использовать внешние программы, например, EXCEL MS Office или такие on-line интернет-сервисы, как Canva, Infogram, Pictochart.

Circle W W.jpg

Для проведения диахронических исследований, в разделе НКРЯ «графики» имеется возможность сравнить хронологическое распределение частот употребления словоформ в Основном корпусе. Результаты иллюстрируются двумерными графиками.

Graph W W.jpg

Особенность поисковой системы НКРЯ состоит в том, что в ней на общем корпусе учитываются прежде всего морфологические свойства слов, синтаксические же характеристики легли в основу синтаксической разметки небольшого по объему материала, о чем свидетельствует таблица.

Подкорпус Число текстов Число предложений Число предложений
Основной корпус 76 882 17 574 752 209 198 275
в том числе со снятой омонимией 2 147 516 852 5 944 188

Поэтому при определенных исследовательских работах необходимо самим составлять сводные списки признаков, отличающих языковые объекты. Затем, опираясь на эти признаки, составлять поисковые запросы к НКРЯ. Наиболее интересными в этом случае оказывается работа с омонимами, принадлежащими к разным грамматическим классам (например, вводные слова, слова категории состояния, наречия, краткие прилагательные).

Рассмотрим пример. Среди отличительных признаков вводных слов можно отметить следующий - возможность разворачивания слова в предикативную единицу – вербализованную модусную рамку с подчинительным союзом что – с сохранением смысла. Данный признак можно эффективно использовать для отбора предложений, содержащих заданное слово в позиции вводного. Описание такого запроса содержится в презентации.

Приведенные в статье поисковые запросы показывают, что аппарат поиска информации в НКРЯ достаточно эффективен, при условии, что пользователь обладает знанием морфологических норм, правил употребления синтаксических конструкций.