Компьютерная оптика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерная оптика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерная оптика, 2016, том 40, выпуск 4, страницы 572–582
DOI: https://doi.org/10.18287/2412-6179-2016-40-4-572-582
(Mi co252)
 

Эта публикация цитируется в 12 научных статьях (всего в 12 статьях)

АНАЛИЗ ДАННЫХ

Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов

Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов

Новгородский государственный университет имени Ярослава Мудрого, Великий Новгород, Россия
Список литературы:
Аннотация: Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются известные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематического текстового корпуса. По сравнению с поиском совокупностей указанных составляющих на синтаксически размеченном текстовом корпусе, предложенный в работе метод отбора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.
Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.
Финансовая поддержка Номер гранта
Министерство образования и науки Российской Федерации
Российский фонд фундаментальных исследований 16-01-00004_а
Работа выполнена при поддержке Министерства образования и науки РФ (базовая часть госзадания), а также гранта РФФИ (№16-01-00004).
Поступила в редакцию: 14.04.2016
Принята в печать: 01.07.2016
Тип публикации: Статья
Образец цитирования: Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов, “Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов”, Компьютерная оптика, 40:4 (2016), 572–582
Цитирование в формате AMSBIB
\RBibitem{MikKozEme16}
\by Д.~В.~Михайлов, А.~П.~Козлов, Г.~М.~Емельянов
\paper Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
\jour Компьютерная оптика
\yr 2016
\vol 40
\issue 4
\pages 572--582
\mathnet{http://mi.mathnet.ru/co252}
\crossref{https://doi.org/10.18287/2412-6179-2016-40-4-572-582}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/co252
  • https://www.mathnet.ru/rus/co/v40/i4/p572
  • Эта публикация цитируется в следующих 12 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерная оптика
    Статистика просмотров:
    Страница аннотации:205
    PDF полного текста:61
    Список литературы:39
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024