Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2020, том 12, выпуск 4, страницы 921–933
DOI: https://doi.org/10.20537/2076-7633-2020-12-4-921-933
(Mi crm825)
 

Эта публикация цитируется в 8 научных статьях (всего в 8 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Сравнительный анализ статистических методов классификации научных публикаций в области медицины

Г. В. Даниловa, В. В. Жуковb, А. С. Куликовa, Е. С. Макашоваa, Н. А. Митинc, Ю. Н. Орловbc

a ФГАУ НМИЦ нейрохирургии им. ак. Н. Н. Бурденко, Россия, 125047, г. Москва, 4-я Тверская-Ямская ул., д. 16
b Российский университет дружбы народов, Россия, 117198, г. Москва, ул. Миклухо-Маклая, д. 6
c ФИЦ Институт прикладной математики им. М. В. Келдыша РАН, Россия, 125047, г. Москва, Миусская пл., д. 4
Список литературы:
Аннотация: В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.
Ключевые слова: машинное обучение, классификация медицинских текстов, статистический анализ.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-29-01174
Работа выполнена при финансовой поддержке гранта РФФИ № 19-29-01174.
Поступила в редакцию: 25.03.2020
Исправленный вариант: 16.04.2020
Принята в печать: 06.05.2020
Тип публикации: Статья
УДК: 519.25
Образец цитирования: Г. В. Данилов, В. В. Жуков, А. С. Куликов, Е. С. Макашова, Н. А. Митин, Ю. Н. Орлов, “Сравнительный анализ статистических методов классификации научных публикаций в области медицины”, Компьютерные исследования и моделирование, 12:4 (2020), 921–933
Цитирование в формате AMSBIB
\RBibitem{DanZhuKul20}
\by Г.~В.~Данилов, В.~В.~Жуков, А.~С.~Куликов, Е.~С.~Макашова, Н.~А.~Митин, Ю.~Н.~Орлов
\paper Сравнительный анализ статистических методов классификации научных публикаций в области медицины
\jour Компьютерные исследования и моделирование
\yr 2020
\vol 12
\issue 4
\pages 921--933
\mathnet{http://mi.mathnet.ru/crm825}
\crossref{https://doi.org/10.20537/2076-7633-2020-12-4-921-933}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm825
  • https://www.mathnet.ru/rus/crm/v12/i4/p921
  • Эта публикация цитируется в следующих 8 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:157
    PDF полного текста:59
    Список литературы:21
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024