|
Извлечение именованных сущностей из рецензий к исходному коду
В. В. Качановab, А. С. Хитроваca, С. И. Марковa a Институт системного программирования им. В.П. Иванникова РАН
b Московский физико-технический институт
c Московский государственный университет имени М. В. Ломоносова
Аннотация:
В данной статье рассматривается задача извлечения именованных сущностей из рецензий исходного кода. В работе приводится сравнительный анализ существующих подходов и предлагаются собственные методы для улучшения качества решения задачи. Предложенные и реализованные улучшения включают в себя: методы борьбы с дисбалансом данных, улучшения токенизации входных данных, использование больших массивов неразмеченных данных и применение дополнительных бинарных классификаторов. Для оценки качества собран и размечен вручную новый набор из 3000 пользовательских рецензий. Показано, что предложенные улучшения позволяют значительно увеличить показатели метрик качества, вычисляемых как на уровне токенов (+22%), так и на уровне сущностей целиком (+13%).
Ключевые слова:
машинное обучение, извлечение именованных сущностей, набор данных
Образец цитирования:
В. В. Качанов, А. С. Хитрова, С. И. Марков, “Извлечение именованных сущностей из рецензий к исходному коду”, Труды ИСП РАН, 35:5 (2023), 193–214
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp823 https://www.mathnet.ru/rus/tisp/v35/i5/p193
|
Статистика просмотров: |
Страница аннотации: | 11 | PDF полного текста: | 17 |
|