|
Эта публикация цитируется в 8 научных статьях (всего в 8 статьях)
ЧИСЛЕННЫЕ МЕТОДЫ И АНАЛИЗ ДАННЫХ
Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм
Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов Новгородский государственный университет имени Ярослава Мудрого, Новгород, Россия
Аннотация:
Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.
Ключевые слова:
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.
Поступила в редакцию: 10.04.2017 Принята в печать: 01.06.2017
Образец цитирования:
Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов, “Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе n-грамм”, Компьютерная оптика, 41:3 (2017), 461–471
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/co406 https://www.mathnet.ru/rus/co/v41/i3/p461
|
Статистика просмотров: |
Страница аннотации: | 1132 | PDF полного текста: | 61 | Список литературы: | 41 |
|