Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2018, том 30, выпуск 6, страницы 221–236
DOI: https://doi.org/10.15514/ISPRAS-2018-30(6)-12
(Mi tisp385)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке

А. В. Глазкова

Тюменский государственный университет
Список литературы:
Аннотация: Поиск и классификация текстовых документов применяются во многих практических приложениях и являются одними из ключевых задач информационного поиска. Методы поиска и классификации текстов находят применение в поисковых системах, электронных библиотеках и каталогах, системах сбора и обработки информации, платформах для онлайн-обучения и многих других. Существует большое количество частных применений указанных методов, однако каждая подобная практическая задача отличается, как правило, слабой формализуемостью, узкой предметностью и, следовательно, требует индивидуального изучения и собственного подхода к решению. В данной работе рассматривается задача автоматического поиска и типизации текстовых фрагментов, содержащих биографическую информацию. Ключевой проблемой при решении указанной задачи является проведение мультиклассовой классификации текстовых фрагментов в зависимости от наличия и типа содержащейся в них биографической информации. Проведя обзор научной литературы по рассматриваемому вопросу, авторы сделали вывод о перспективности и широте применения нейросетевых методов для решения подобных задач. Исходя из данного вывода, в работе проведено сравнение различных архитектур нейросетевых моделей, а также основных способов представления текстов (Bag-of-Words, Bag-of-Ngrams, TF-IDF, Word2Vec) на предварительно собранном и размеченном корпусе биографических текстов. В статье описываются этапы подготовки обучающего множества текстовых фрагментов для обучения моделей, способы представления текстов и методы классификации, выбранные для решения задачи. Также приводятся результаты мультиклассовой классификации текстовых фрагментов и показаны примеры автоматического поиска фрагментов, содержащих биографическую информацию, в текстах, не участвовавших в процессе обучения моделей.
Ключевые слова: классификация текстов, обработка естественного языка, векторные представления слов, нейронные сети, биографический текст.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-37-00272
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-37-00272 «Автоматизированное извлечение биографических фактов из текстов на естественном языке».
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: А. В. Глазкова, “Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке”, Труды ИСП РАН, 30:6 (2018), 221–236
Цитирование в формате AMSBIB
\RBibitem{Gla18}
\by А.~В.~Глазкова
\paper Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке
\jour Труды ИСП РАН
\yr 2018
\vol 30
\issue 6
\pages 221--236
\mathnet{http://mi.mathnet.ru/tisp385}
\crossref{https://doi.org/10.15514/ISPRAS-2018-30(6)-12}
\elib{https://elibrary.ru/item.asp?id=36825273}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp385
  • https://www.mathnet.ru/rus/tisp/v30/i6/p221
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:149
    PDF полного текста:52
    Список литературы:31
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024