Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. ЮУрГУ. Сер. Выч. матем. информ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика», 2017, том 6, выпуск 3, страницы 73–83
DOI: https://doi.org/10.14529/cmse170305
(Mi vyurv172)
 

Информатика, вычислительная техника и управление

Векторная модель представления знаний на основе семантической близости термов

Д. В. Бондарчук

Уральский государственный университет путей сообщения (620034 Екатеринбург, ул. Колмогорова, д. 66)
Список литературы:
Аннотация: Большинство методов интеллектуального анализа текстов используют векторную модель представления знаний. Векторная модель использует частоту (вес) терма, чтобы определить его важность в документе. Термы могут быть схожи семантически, но отличаться лексикографически, что,в свою очередь, приведет к тому, что классификация, основанная на частоте термов, не даст нужного результата.
Причиной ошибок является отсутствие учета таких особенностей естественного языка, как синонимия и полисемия. Неучет этих особенностей, а именно синонимии и полисемии, увеличивает размерность семантического пространства, от которой зависит быстродействие конечного программного продукта, разработанного на основе алгоритма. Кроме того, результаты работы многих алгоритмов сложно воспринимаются экспертом предметной области, который подготавливает обучающую выборку, что, в свою очередь, также сказывается на качестве выдачи алгоритма.
В работе предлагается модель, которая помимо веса терма в документе, так же использует «семантический вес терма». «Семантический вес термов» тем выше, чем они семантически ближе друг к другу.
Для вычисления семантической близости термов будем использовать адаптацию расширенного алгоритма Леска. Метод расчета семантической близости состоит в том, что для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения (предполагается, что словарное определение содержит описание нескольких значений слова), так и в ближайшем контексте рассматриваемого слова. В качестве наиболее вероятного значения слова выбирается то, для которого такое пересечение оказалось больше. Векторная модель с учетом семантической близости термов решает проблему неоднозначности синонимов.
Ключевые слова: интеллектуальный анализ текстов, векторная модель, семантическая близость.
Поступила в редакцию: 26.07.2015
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.822
Образец цитирования: Д. В. Бондарчук, “Векторная модель представления знаний на основе семантической близости термов”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 6:3 (2017), 73–83
Цитирование в формате AMSBIB
\RBibitem{Bon17}
\by Д.~В.~Бондарчук
\paper Векторная модель представления знаний на основе семантической близости термов
\jour Вестн. ЮУрГУ. Сер. Выч. матем. информ.
\yr 2017
\vol 6
\issue 3
\pages 73--83
\mathnet{http://mi.mathnet.ru/vyurv172}
\crossref{https://doi.org/10.14529/cmse170305}
\elib{https://elibrary.ru/item.asp?id=30016529}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vyurv172
  • https://www.mathnet.ru/rus/vyurv/v6/i3/p73
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»
    Статистика просмотров:
    Страница аннотации:132
    PDF полного текста:105
    Список литературы:18
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024