|
Труды СПИИРАН, 2009, выпуск 11, страницы 228–233
(Mi trspy57)
|
|
|
|
Построение машинно-читаемого словаря на основе русского викисловаря
А. А. Крижановский Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
В виду большого количества словарных статей и разностороннему описанию слов (фонетика, орфография, морфология, синтаксис, семантика, этимология) викисловарь является важным лингвистическим ресурсом, например для таких задач, как: информационный поиск, сравнение онтологий, определение значения многозначных слов, проверка орфографии, автоматическое создание тезаурусов, машинный перевод и др.
В статье представлены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков).
Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны (1) структура базы данных машинно-читаемого словаря, (2) интерфейсы к этой базе данных.
Разработанный графический интерфейс позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.
Необходимо отметить, что в данной работе не рассматривались другие языковые версии викисловарей, а только русский викисловарь, при этом только небольшая часть лексикографической информации была извлечена из текстов русского викисловаря: толкование, ссылки для ключевых слов, семантические отношения, перевод. Извлечение из викисловаря таких частей словарной статьи, как: произношение (фонетическая транскрипция, аудиофайл), разбиение на слоги, этимология, цитаты (примеры употреблений), параллельные тексты (цитаты с переводами), иллюстрация (фото или видео к значению слова) — здесь не рассматривается, поскольку это первый шаг в создании парсера викисловаря с открытым исходным кодом.
Ключевые слова:
машинно-читаемый словарь, лексикография, автоматическая обработка текста, вики.
Поступила в редакцию: 10.12.2009
Образец цитирования:
А. А. Крижановский, “Построение машинно-читаемого словаря на основе русского викисловаря”, Тр. СПИИРАН, 11 (2009), 228–233
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy57 https://www.mathnet.ru/rus/trspy/v11/p228
|
Статистика просмотров: |
Страница аннотации: | 360 | PDF полного текста: | 122 | Первая страница: | 1 |
|