|
Эта публикация цитируется в 8 научных статьях (всего в 8 статьях)
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Сравнительный анализ статистических методов классификации научных публикаций в области медицины
Г. В. Даниловa, В. В. Жуковb, А. С. Куликовa, Е. С. Макашоваa, Н. А. Митинc, Ю. Н. Орловbc a ФГАУ НМИЦ нейрохирургии им. ак. Н. Н. Бурденко,
Россия, 125047, г. Москва, 4-я Тверская-Ямская ул., д. 16
b Российский университет дружбы народов,
Россия, 117198, г. Москва, ул. Миклухо-Маклая, д. 6
c ФИЦ Институт прикладной математики им. М. В. Келдыша РАН,
Россия, 125047, г. Москва, Миусская пл., д. 4
Аннотация:
В работе проведено сравнение различных методов машинной классификации научных текстов по тематическим разделам на примере публикаций в профильных медицинских журналах, выпускаемых издательством Springer. Исследовался корпус текстов по пяти разделам: фармакология/токсикология, кардиология, иммунология, неврология и онкология. Рассматривались как методы поверхностной классификации, основанные на анализе аннотаций и ключевых слов, так и методы классификации на основе обработки собственно текстов. Были применены методы байесовской классификации, опорных векторов и эталонных буквосочетаний. Показано, что наилучшую точность имеет метод классификации на основе создания библиотеки эталонов буквенных триграмм, отвечающих текстам определенной тематики, а семантические методы уступают ему по точности. Выяснилось, что применительно к рассматриваемому корпусу текстов байесовский метод дает ошибку порядка 20 %, метод опорных векторов имеет ошибку порядка 10 %, а метод близости распределения текста к трехбуквенному эталону тематики дает ошибку порядка 5 %, что позволяет ранжировать эти методы для использования искусственного интеллекта в задачах классификации текстов по отраслевым специальностям. Существенно, что при анализе аннотаций метод опорных векторов дает такую же точность, что и при анализе полных текстов, что важно для сокращения числа операций для больших корпусов текстов.
Ключевые слова:
машинное обучение, классификация медицинских текстов, статистический анализ.
Поступила в редакцию: 25.03.2020 Исправленный вариант: 16.04.2020 Принята в печать: 06.05.2020
Образец цитирования:
Г. В. Данилов, В. В. Жуков, А. С. Куликов, Е. С. Макашова, Н. А. Митин, Ю. Н. Орлов, “Сравнительный анализ статистических методов классификации научных публикаций в области медицины”, Компьютерные исследования и моделирование, 12:4 (2020), 921–933
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm825 https://www.mathnet.ru/rus/crm/v12/i4/p921
|
Статистика просмотров: |
Страница аннотации: | 167 | PDF полного текста: | 62 | Список литературы: | 25 |
|