Информационные технологии и вычислительные системы
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



ИТиВС:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информационные технологии и вычислительные системы, 2020, выпуск 4, страницы 111–124
DOI: https://doi.org/10.14357/20718632200410
(Mi itvs433)
 

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ

Учет неизвестных слов в вероятностной тематической модели

С. Н. Карповичa, А. В. Смирновb, Н. Н. Тесляb

a АО "Олимп", г. Москва, Россия
b Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук», Россия
Аннотация: В работе рассмотрены подходы к учету неизвестных слов в языковых моделях алгоритмов обработки естественного языка. Предложен метод учета неизвестных слов в вероятностном тематическом моделировании, который позволяет определить вероятность новизны документа без обновления параметров модели. Тематические модели рассчитывают вероятностную оценку отнесения слова к темам. Матрица вероятностных отношений слово тема, заполнена апостериорными значениями вероятностей слов, введя в модель понятие штрафа за неизвестность или априорную оценку вероятности для неизвестных слов, можем рассчитать вероятностную оценку новизны документа. Разработан программный прототип метода позволяющий рассчитывать вероятность новизны документа. Проведены эксперименты на корпусе текстов SCTM-ru, демонстрирующие возможности метода для классификации коллекций и потоков текстовых документов, содержащих неизвестные слова, отражающие влияние неизвестных слов на тему документов, сравнивающие результаты классификации тематической модели и модели классификатора.
Ключевые слова: вероятностное тематическое моделирование, обработка текста на естественном языке, учет неизвестных слов, новизна текстовых документов.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 20-07-00904
Министерство образования и науки Российской Федерации 0073-2019-0005
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 20-07-00904) в части исследования алгоритмов обработки текстовых данных и бюджетной темы № 0073-2019-0005 (весь остальной материал).
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: С. Н. Карпович, А. В. Смирнов, Н. Н. Тесля, “Учет неизвестных слов в вероятностной тематической модели”, ИТиВС, 2020, № 4, 111–124
Цитирование в формате AMSBIB
\RBibitem{KarSmiTes20}
\by С.~Н.~Карпович, А.~В.~Смирнов, Н.~Н.~Тесля
\paper Учет неизвестных слов в вероятностной тематической модели
\jour ИТиВС
\yr 2020
\issue 4
\pages 111--124
\mathnet{http://mi.mathnet.ru/itvs433}
\crossref{https://doi.org/10.14357/20718632200410}
\elib{https://elibrary.ru/item.asp?id=44396804}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/itvs433
  • https://www.mathnet.ru/rus/itvs/y2020/i4/p111
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информационные технологии и вычислительные системы
    Статистика просмотров:
    Страница аннотации:125
    PDF полного текста:73
    Первая страница:3
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024