Е. Ю. Акулинина, А. Л. Карманов, Н. А. Теплых, В. В. Власов, В. И. Балута, С. С. Варыханов, А. А. Карандеев, В. П. Осипов, Ю. Г. Рыков, Б. Н. Четверушкин, “Извлечение фактографической информации о пандемии из открытых источников сети Интернет”, Матем. биология и биоинформ., 17:2 (2022), 423

Математическая биология и биоинформатика

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Матем. биология и биоинформ.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Математическая биология и биоинформатика, 2022, том 17, выпуск 2, страницы 423–440
DOI: https://doi.org/10.17537/2022.17.423 (Mi mbb497)

Информационные и вычислительные технологии в биологии и медицине

Извлечение фактографической информации о пандемии из открытых источников сети Интернет

Е. Ю. Акулинина^a, А. Л. Карманов^a, Н. А. Теплых^a, В. В. Власов^a, В. И. Балута^b, С. С. Варыханов^b, А. А. Карандеев^b, В. П. Осипов^b, Ю. Г. Рыков^b, Б. Н. Четверушкин^b

^a ФГУП "РФЯЦ ВНИИТФ им. академ. Е.И. Забабахина", Снежинск, Россия
^b Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия

PDF полного текста (1167 kB)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.17537/2022.17.423

Аннотация: Создание базирующихся на мультиагентных подходах моделей распространения инфекционных заболеваний основывается на использовании большого объема разнородных исходных данных, как правило, отсутствующих в непосредственном доступе, в связи с чем одной из ключевых проблем конструирования таких моделей является разработка инструментов получения данных из различных источников. В настоящей статье представлены подходы, позволяющие извлекать из текстовых сообщений, опубликованных в сети Интернет, значения параметров функционирования моделируемого общества и статистические данные о процессе развития пандемии. Предложены метод и программная реализация для целенаправленного поиска открытых источников информации в сети интернет и обработки неструктурированных данных. Собранные таким образом данные используются для настройки математической модели при исследовании различных сценариев развития эпидемии в конкретных регионах. Акцент в предлагаемом подходе обработки данных сделан на двух основных технологиях: применение регулярных выражений и анализ с использованием методов машинного обучения. Использование метода регулярных выражений позволяет обеспечить высокую скорость обработки текстов, но его применимость ограничивается сильной зависимостью от контекста. В свою очередь, машинное обучение позволяет адаптироваться под информационный контекст сообщения, однако при этом наблюдаются относительно большие затраты времени на анализ. Для повышения точности анализа и нивелирования недостатков каждого из этих подходов предлагаются способы совмещения названных технологий. В статье излагаются полученные результаты оптимизации алгоритмов получения необходимых данных. Реализация предлагаемых решений выполнена на языках Python и С++ с использованием библиотек по обработке русскоязычной текстовой информации. Также представлено решение на основе современной программной платформы для автоматизации процесса мониторинга и обработки выбранных информационных каналов.

Ключевые слова: анализ текстовых данных, регулярные выражения, синтаксические деревья, платформа сбора данных.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	075-11-2020-011
Работа выполнена при поддержке Минобрнауки России в рамках Соглашения № 075-11-2020-011 от 19.10.2020 (ИГК 0000000007520RHT0002).

Материал поступил в редакцию 24.11.2022, 29.11.2022, опубликован 04.12.2022

Реферативные базы данных:

Тип публикации: Статья

Образец цитирования: Е. Ю. Акулинина, А. Л. Карманов, Н. А. Теплых, В. В. Власов, В. И. Балута, С. С. Варыханов, А. А. Карандеев, В. П. Осипов, Ю. Г. Рыков, Б. Н. Четверушкин, “Извлечение фактографической информации о пандемии из открытых источников сети Интернет”, Матем. биология и биоинформ., 17:2 (2022), 423–440

Цитирование в формате AMSBIB

\RBibitem{AkuKarTep22}

\by Е.~Ю.~Акулинина, А.~Л.~Карманов, Н.~А.~Теплых, В.~В.~Власов, В.~И.~Балута, С.~С.~Варыханов, А.~А.~Карандеев, В.~П.~Осипов, Ю.~Г.~Рыков, Б.~Н.~Четверушкин

\paper Извлечение фактографической информации о пандемии из открытых источников сети Интернет

\jour Матем. биология и биоинформ.

\yr 2022

\vol 17

\issue 2

\pages 423--440

\mathnet{http://mi.mathnet.ru/mbb497}

\crossref{https://doi.org/10.17537/2022.17.423}

\elib{https://elibrary.ru/item.asp?id=50158441}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/mbb497

https://www.mathnet.ru/rus/mbb/v17/i2/p423

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	128
PDF полного текста:	42
Список литературы:	28

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы