Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2009, выпуск 11, страницы 228–233 (Mi trspy57)  

Построение машинно-читаемого словаря на основе русского викисловаря

А. А. Крижановский

Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация: В виду большого количества словарных статей и разностороннему описанию слов (фонетика, орфография, морфология, синтаксис, семантика, этимология) викисловарь является важным лингвистическим ресурсом, например для таких задач, как: информационный поиск, сравнение онтологий, определение значения многозначных слов, проверка орфографии, автоматическое создание тезаурусов, машинный перевод и др.
В статье представлены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков).
Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны (1) структура базы данных машинно-читаемого словаря, (2) интерфейсы к этой базе данных. Разработанный графический интерфейс позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.
Необходимо отметить, что в данной работе не рассматривались другие языковые версии викисловарей, а только русский викисловарь, при этом только небольшая часть лексикографической информации была извлечена из текстов русского викисловаря: толкование, ссылки для ключевых слов, семантические отношения, перевод. Извлечение из викисловаря таких частей словарной статьи, как: произношение (фонетическая транскрипция, аудиофайл), разбиение на слоги, этимология, цитаты (примеры употреблений), параллельные тексты (цитаты с переводами), иллюстрация (фото или видео к значению слова) — здесь не рассматривается, поскольку это первый шаг в создании парсера викисловаря с открытым исходным кодом.
Ключевые слова: машинно-читаемый словарь, лексикография, автоматическая обработка текста, вики.
Поступила в редакцию: 10.12.2009
УДК: 004.912
Образец цитирования: А. А. Крижановский, “Построение машинно-читаемого словаря на основе русского викисловаря”, Тр. СПИИРАН, 11 (2009), 228–233
Цитирование в формате AMSBIB
\RBibitem{Kri09}
\by А.~А.~Крижановский
\paper Построение машинно-читаемого словаря на основе русского викисловаря
\jour Тр. СПИИРАН
\yr 2009
\vol 11
\pages 228--233
\mathnet{http://mi.mathnet.ru/trspy57}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy57
  • https://www.mathnet.ru/rus/trspy/v11/p228
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:360
    PDF полного текста:122
    Первая страница:1
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024