Д. В. Бондарчук, “Векторная модель представления знаний на основе семантической близости термов”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 6:3 (2017), 73

Аннотация: Большинство методов интеллектуального анализа текстов используют векторную модель представления знаний. Векторная модель использует частоту (вес) терма, чтобы определить его важность в документе. Термы могут быть схожи семантически, но отличаться лексикографически, что,в свою очередь, приведет к тому, что классификация, основанная на частоте термов, не даст нужного результата.
Причиной ошибок является отсутствие учета таких особенностей естественного языка, как синонимия и полисемия. Неучет этих особенностей, а именно синонимии и полисемии, увеличивает размерность семантического пространства, от которой зависит быстродействие конечного программного продукта, разработанного на основе алгоритма. Кроме того, результаты работы многих алгоритмов сложно воспринимаются экспертом предметной области, который подготавливает обучающую выборку, что, в свою очередь, также сказывается на качестве выдачи алгоритма.
В работе предлагается модель, которая помимо веса терма в документе, так же использует «семантический вес терма». «Семантический вес термов» тем выше, чем они семантически ближе друг к другу.
Для вычисления семантической близости термов будем использовать адаптацию расширенного алгоритма Леска. Метод расчета семантической близости состоит в том, что для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения (предполагается, что словарное определение содержит описание нескольких значений слова), так и в ближайшем контексте рассматриваемого слова. В качестве наиболее вероятного значения слова выбирается то, для которого такое пересечение оказалось больше. Векторная модель с учетом семантической близости термов решает проблему неоднозначности синонимов.