Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 308–317
DOI: https://doi.org/10.31857/S2686954323601677
(Mi danma475)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Поиск искусственно сгенерированных текстовых фрагментов в научных документах

Г. М. Грицайab, А. В. Грабовойabc, А. С. Кильдяковa, Ю. В. Чеховичac

a Компания Антиплагиат, Москва, Россия
b Московский физико-технический институт (национальный исследовательский университет), Москва, Россия
c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
Список литературы:
Аннотация: Недавние достижения в области текстовых генеративных моделей позволяют получать искусственные тексты, едва отличимые от написанных человеком при беглом прочтении. Прогресс подобных моделей ставит новые задачи перед научным сообществом, ведь их развитие влечет за собой появление и распространение ложной информации, спама, способствует распространению неэтичных практик. В области обработки естественного языка уже разработано большое количество методов для детектирования текстов, полученных при помощи моделей машинного обучения, включая большие языковые модели. Однако улучшению методов выявления искусственных текстов происходит одновременно с улучшением методов генерации текстов, поэтому требуется изучение появляющихся моделей, искусственных текстов – результатов их работы и модернизации существующих подходов к детекции. В настоящей работе представлен детальный анализ ранее созданных методов детекции, а также исследование лексических, синтаксических и стилистических особенностей генерируемых фрагментов. В вычислительном эксперименте сравниваются различные методы детектирования машинной генерации в документах с точки зрения их дальнейшего применения для научных и учебных текстов. Эксперименты проводились для русского и английского языков на собранных авторами наборах данных. Разработанные методы позволили довести качество детектирования до значения 0.968 по метрике F1-score для русского и до 0.825 для английского языков соответственно. Созданные методы используются в практических системах для выявления сгенерированных фрагментов в научных, исследовательских и выпускных работах.
Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, множественная проверка гипотез, перефразирование, детекция сгенерированных текстов.
Статья представлена к публикации: А. Л. Семёнов
Поступило: 02.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023
Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S434–S442
DOI: https://doi.org/10.1134/S1064562423701211
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.89
Образец цитирования: Г. М. Грицай, А. В. Грабовой, А. С. Кильдяков, Ю. В. Чехович, “Поиск искусственно сгенерированных текстовых фрагментов в научных документах”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 308–317; Dokl. Math., 108:suppl. 2 (2023), S434–S442
Цитирование в формате AMSBIB
\RBibitem{GriGraKil23}
\by Г.~М.~Грицай, А.~В.~Грабовой, А.~С.~Кильдяков, Ю.~В.~Чехович
\paper Поиск искусственно сгенерированных текстовых фрагментов в научных документах
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2023
\vol 514
\issue 2
\pages 308--317
\mathnet{http://mi.mathnet.ru/danma475}
\crossref{https://doi.org/10.31857/S2686954323601677}
\elib{https://elibrary.ru/item.asp?id=56717843}
\transl
\jour Dokl. Math.
\yr 2023
\vol 108
\issue suppl. 2
\pages S434--S442
\crossref{https://doi.org/10.1134/S1064562423701211}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma475
  • https://www.mathnet.ru/rus/danma/v514/i2/p308
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:68
    Список литературы:11
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024