Компьютерная оптика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерная оптика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерная оптика, 2017, том 41, выпуск 3, страницы 461–471
DOI: https://doi.org/10.18287/2412-6179-2017-41-3-461-471
(Mi co406)
 

Эта публикация цитируется в 8 научных статьях (всего в 8 статьях)

ЧИСЛЕННЫЕ МЕТОДЫ И АНАЛИЗ ДАННЫХ

Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм

Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов

Новгородский государственный университет имени Ярослава Мудрого, Новгород, Россия
Список литературы:
Аннотация: Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.
Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.
Финансовая поддержка Номер гранта
Министерство образования и науки Российской Федерации
Российский фонд фундаментальных исследований 16-01-00004 а
Работа выполнена при поддержке Министерства образования и науки РФ (базовая часть госзадания), а также гранта РФФИ (№16-01-00004).
Поступила в редакцию: 10.04.2017
Принята в печать: 01.06.2017
Тип публикации: Статья
Образец цитирования: Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов, “Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм”, Компьютерная оптика, 41:3 (2017), 461–471
Цитирование в формате AMSBIB
\RBibitem{MikKozEme17}
\by Д.~В.~Михайлов, А.~П.~Козлов, Г.~М.~Емельянов
\paper Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм
\jour Компьютерная оптика
\yr 2017
\vol 41
\issue 3
\pages 461--471
\mathnet{http://mi.mathnet.ru/co406}
\crossref{https://doi.org/10.18287/2412-6179-2017-41-3-461-471}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/co406
  • https://www.mathnet.ru/rus/co/v41/i3/p461
  • Эта публикация цитируется в следующих 8 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерная оптика
    Статистика просмотров:
    Страница аннотации:1132
    PDF полного текста:61
    Список литературы:41
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024