Математическая биология и биоинформатика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Матем. биология и биоинформ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Математическая биология и биоинформатика, 2022, том 17, выпуск 2, страницы 423–440
DOI: https://doi.org/10.17537/2022.17.423
(Mi mbb497)
 

Информационные и вычислительные технологии в биологии и медицине

Извлечение фактографической информации о пандемии из открытых источников сети Интернет

Е. Ю. Акулининаa, А. Л. Кармановa, Н. А. Теплыхa, В. В. Власовa, В. И. Балутаb, С. С. Варыхановb, А. А. Карандеевb, В. П. Осиповb, Ю. Г. Рыковb, Б. Н. Четверушкинb

a ФГУП "РФЯЦ ВНИИТФ им. академ. Е.И. Забабахина", Снежинск, Россия
b Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия
Список литературы:
Аннотация: Создание базирующихся на мультиагентных подходах моделей распространения инфекционных заболеваний основывается на использовании большого объема разнородных исходных данных, как правило, отсутствующих в непосредственном доступе, в связи с чем одной из ключевых проблем конструирования таких моделей является разработка инструментов получения данных из различных источников. В настоящей статье представлены подходы, позволяющие извлекать из текстовых сообщений, опубликованных в сети Интернет, значения параметров функционирования моделируемого общества и статистические данные о процессе развития пандемии. Предложены метод и программная реализация для целенаправленного поиска открытых источников информации в сети интернет и обработки неструктурированных данных. Собранные таким образом данные используются для настройки математической модели при исследовании различных сценариев развития эпидемии в конкретных регионах. Акцент в предлагаемом подходе обработки данных сделан на двух основных технологиях: применение регулярных выражений и анализ с использованием методов машинного обучения. Использование метода регулярных выражений позволяет обеспечить высокую скорость обработки текстов, но его применимость ограничивается сильной зависимостью от контекста. В свою очередь, машинное обучение позволяет адаптироваться под информационный контекст сообщения, однако при этом наблюдаются относительно большие затраты времени на анализ. Для повышения точности анализа и нивелирования недостатков каждого из этих подходов предлагаются способы совмещения названных технологий. В статье излагаются полученные результаты оптимизации алгоритмов получения необходимых данных. Реализация предлагаемых решений выполнена на языках Python и С++ с использованием библиотек по обработке русскоязычной текстовой информации. Также представлено решение на основе современной программной платформы для автоматизации процесса мониторинга и обработки выбранных информационных каналов.
Ключевые слова: анализ текстовых данных, регулярные выражения, синтаксические деревья, платформа сбора данных.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации 075-11-2020-011
Работа выполнена при поддержке Минобрнауки России в рамках Соглашения № 075-11-2020-011 от 19.10.2020 (ИГК 0000000007520RHT0002).
Материал поступил в редакцию 24.11.2022, 29.11.2022, опубликован 04.12.2022
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: Е. Ю. Акулинина, А. Л. Карманов, Н. А. Теплых, В. В. Власов, В. И. Балута, С. С. Варыханов, А. А. Карандеев, В. П. Осипов, Ю. Г. Рыков, Б. Н. Четверушкин, “Извлечение фактографической информации о пандемии из открытых источников сети Интернет”, Матем. биология и биоинформ., 17:2 (2022), 423–440
Цитирование в формате AMSBIB
\RBibitem{AkuKarTep22}
\by Е.~Ю.~Акулинина, А.~Л.~Карманов, Н.~А.~Теплых, В.~В.~Власов, В.~И.~Балута, С.~С.~Варыханов, А.~А.~Карандеев, В.~П.~Осипов, Ю.~Г.~Рыков, Б.~Н.~Четверушкин
\paper Извлечение фактографической информации о пандемии из открытых источников сети Интернет
\jour Матем. биология и биоинформ.
\yr 2022
\vol 17
\issue 2
\pages 423--440
\mathnet{http://mi.mathnet.ru/mbb497}
\crossref{https://doi.org/10.17537/2022.17.423}
\elib{https://elibrary.ru/item.asp?id=50158441}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mbb497
  • https://www.mathnet.ru/rus/mbb/v17/i2/p423
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Статистика просмотров:
    Страница аннотации:94
    PDF полного текста:35
    Список литературы:23
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024