РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ


Генерация текстов на естественном языке


Генерация текстов на естественном языке

Направление «Генерация текстов на естественном языке» – это создание компьютерных систем, способных автоматически порождать тексты на естественном языке из входного неязыкового представления информации. Генерация текстов противопоставлена всем другим направлениям компьютерной лингвистики. Для всех направлений создания систем автоматической обработки текстов и речи входным представлением является письменный или звучащий текст, а выход определяется типом системы: для системы Машинного Перевода – текст перевода на другом языке, для системы Автоматического Реферирования – реферат входного текста, для извлечения терминов – список терминов и т.д.[1]

Система Генерации текстов начинает с нетекстового представления информации (базы данных и базы знаний, параметры мониторинга объектов и явлений, различные спецификации) и поэтому вынуждена заниматься теми сторонами текстов, которые не рассматриваются другими направлениями: выбор содержания текста в соответствии с целями и типом текста, планирование текста, структура дискурса, параметры коммуникантов и др. Пик исследовательских проектов по созданию систем генерации текстов приходится на 1990 по 1998 (в соответствии с информацией списка Бейтмана-Зока)[2] и следует за становлением исследований в области структуры дискурса. Глубина исследований и ориентация на текст как единицу коммуникации Генерации текстов определяет важность этого направления для преподавания Компьютерной Лингвистики. По генерации текстов читается лекция в курсах по Автоматической обработке текста и естественного языка. С 2011/2012 учебного года проводится спецкурс «Автоматическая генерация текстов – описаний изображений» для студентов 5-го курса.

На странице направления «Генерация текстов на естественном языке» мы будем помещать информацию и ресурсы, созданные в ходе работы семинара и подготовки курсовых и дипломных работ по этой теме.

Контрастивный нидерландско-русский корпус описаний фотографий

Доцент кафедры компьютерной лингвистики – к.ф.н. Соколова Елена Григорьевна.


[1] Полный (но не исчерпывающий) список направлений Компьютерной Лингвистики см. Тезаурус по Компьютерной Лингвистике на сайте Института систем информатики им. А.П. Ершова СО РАН: http://uniserv.iis.nsk.su/thes/index.php?ent=74.


[2] http://www.nlg-wiki.org/systems/ , с 2004 года передан в Википедию.