|
Вычислительные методы и программирование, 2015, том 16, выпуск 1, страницы 26–38
(Mi vmp516)
|
|
|
|
Регуляризация многоязычных тематических моделей
М. А. Дударенко Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики
Аннотация:
Предлагается многоязычная вероятностная тематическая модель, одновременно учитывающая двуязычный словарь и связи между документами параллельной или сравнимой коллекции. Для комбинирования этих двух видов информации применяется аддитивная регуляризация тематических моделей (ARTM). Предлагаются два способа использования двуязычного словаря: первый учитывает только сам факт связи между словами–переводами, во втором настраиваются вероятности переводов в каждой теме. Качество многоязычных моделей измеряется на задаче кросс-язычного поиска, когда запросом является документ на одном языке, а поиск производится среди документов другого языка. Показано, что комбинированный учет слов–переводов из двуязычного словаря и связанных документов улучшает качество кросс-язычного поиска по сравнению с моделями, использующими только один тип информации. Сравнение разных методов включения в модель двуязычных словарей показывает, что оценивание вероятностей переводов не только улучшает качество модели, но и позволяет находить тематический контекст для пар “слово–перевод”.
Ключевые слова:
многоязычная тематическая модель, вероятностная тематическая модель, параллельная коллекция, сравнимая коллекция, двуязычный словарь, регуляризация, кросс-язычный поиск.
Поступила в редакцию: 27.11.2014
Образец цитирования:
М. А. Дударенко, “Регуляризация многоязычных тематических моделей”, Выч. мет. программирование, 16:1 (2015), 26–38
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vmp516 https://www.mathnet.ru/rus/vmp/v16/i1/p26
|
Статистика просмотров: |
Страница аннотации: | 181 | PDF полного текста: | 78 |
|