российский
государственный
гуманитарный университет


Руководитель
Создание корпуса новоарамейских языков: урмийского и туройо

Электронный корпус естественного языка — это собрание текстов, которые обрабатываются компьютером. Зачастую общий объем собранных текстов на естественном языке слишком велик, чтобы анализировать их вручную. Для этого собранные из разных источников тексты преобразуются в формат текстовых документов (.txt, .rtf или др.) в кодировке UTF-8. Затем к текстам добавляются разметка и аннотации, которые в дальнейшем позволяют, к примеру, создать конкорданс или определить часть речи для данного слова.

Ожидаемый результат проекта — создание первоначальной версии электронных корпусов для языков урмийского и туройо (ожидаемый объем — 250 тыс. словоформ для каждого из корпусов). В первоначальной версии корпуса будет возможно: чтение текстов, составление конкорданса к выбранным лексемам, частеречный поиск, поиск по русским и английским леммам. В дальнейшем будет возможным пополнение корпусов и развитие инструментария для работы с ними. Электронный корпус будет доступен для пользования в сети Интернет, для удобства пользователей будет представлен графический интерфейс. В ходе работы над проектом ежегодно планируется публикация двух статей, использующих предварительные результаты работы над электронным корпусом.

Номер проекта: 17-04-00472