|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке
А. В. Глазкова Тюменский государственный университет
Аннотация:
Поиск и классификация текстовых документов применяются во многих практических приложениях и являются одними из ключевых задач информационного поиска. Методы поиска и классификации текстов находят применение в поисковых системах, электронных библиотеках и каталогах, системах сбора и обработки информации, платформах для онлайн-обучения и многих других. Существует большое количество частных применений указанных методов, однако каждая подобная практическая задача отличается, как правило, слабой формализуемостью, узкой предметностью и, следовательно, требует индивидуального изучения и собственного подхода к решению. В данной работе рассматривается задача автоматического поиска и типизации текстовых фрагментов, содержащих биографическую информацию. Ключевой проблемой при решении указанной задачи является проведение мультиклассовой классификации текстовых фрагментов в зависимости от наличия и типа содержащейся в них биографической информации. Проведя обзор научной литературы по рассматриваемому вопросу, авторы сделали вывод о перспективности и широте применения нейросетевых методов для решения подобных задач. Исходя из данного вывода, в работе проведено сравнение различных архитектур нейросетевых моделей, а также основных способов представления текстов (Bag-of-Words, Bag-of-Ngrams, TF-IDF, Word2Vec) на предварительно собранном и размеченном корпусе биографических текстов. В статье описываются этапы подготовки обучающего множества текстовых фрагментов для обучения моделей, способы представления текстов и методы классификации, выбранные для решения задачи. Также приводятся результаты мультиклассовой классификации текстовых фрагментов и показаны примеры автоматического поиска фрагментов, содержащих биографическую информацию, в текстах, не участвовавших в процессе обучения моделей.
Ключевые слова:
классификация текстов, обработка естественного языка, векторные представления слов, нейронные сети, биографический текст.
Образец цитирования:
А. В. Глазкова, “Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке”, Труды ИСП РАН, 30:6 (2018), 221–236
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp385 https://www.mathnet.ru/rus/tisp/v30/i6/p221
|
|