|
Анализ текстовой и графической информации
Методы кросс-языкового поиска тематически похожих нормативно-правовых документов на основе машинного обучения
В. В. Жебельa, Д. А. Девяткинb, Д. В. Зубаревb, И. В. Соченковbcd a Общество с ограниченной ответственностью "Технологии системного анализа", Москва, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
c Университет Иннополис, Казань, Россия
d Институт системного программирования им. В.П. Иванникова РАН, Москва, Россия
Аннотация:
Необходимость изучения мирового опыта для изменения законодательства и нормотворчества вызывает потребность в инструментах информационного поиска нормативно-правовых документов, написанных на разных языках. Одним из аспектов информационного поиска является выявление тематически похожих документов по заданному эталону. В этом контексте возникает важная задача кросс-языкового поиска, когда пользователь информационной системы задает эталонный документ на одном языке, а поисковая выдача содержит релевантные документы на других языках. В настоящем исследовании рассмотрены различные подходы к решению этой задачи: от использования коллекций-медиаторов до более современных методов, опирающихся на дистрибутивную семантику. В качестве тестовой коллекции была использована электронная библиотека ООН, содержащая как оригиналы документов на английском языке, так и их переводы на русский.
Ключевые слова:
кросс-языковой поиск документов, дистрибутивная семантика, информационный поиск нормативно-правовых документов.
Образец цитирования:
В. В. Жебель, Д. А. Девяткин, Д. В. Зубарев, И. В. Соченков, “Методы кросс-языкового поиска тематически похожих нормативно-правовых документов на основе машинного обучения”, Искусственный интеллект и принятие решений, 2022, № 2, 27–35; Scientific and Technical Information Processing, 50:5 (2023), 494–499
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/iipr62 https://www.mathnet.ru/rus/iipr/y2022/i2/p27
|
|