|
Эта публикация цитируется в 12 научных статьях (всего в 12 статьях)
АНАЛИЗ ДАННЫХ
Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов Новгородский государственный университет имени Ярослава Мудрого, Великий Новгород, Россия
Аннотация:
Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются известные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематического текстового корпуса. По сравнению с поиском совокупностей указанных составляющих на синтаксически размеченном текстовом корпусе, предложенный в работе метод отбора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.
Ключевые слова:
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.
Поступила в редакцию: 14.04.2016 Принята в печать: 01.07.2016
Образец цитирования:
Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов, “Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов”, Компьютерная оптика, 40:4 (2016), 572–582
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/co252 https://www.mathnet.ru/rus/co/v40/i4/p572
|
Статистика просмотров: |
Страница аннотации: | 205 | PDF полного текста: | 61 | Список литературы: | 39 |
|