Г. М. Грицай, А. В. Грабовой, А. С. Кильдяков, Ю. В. Чехович, “Поиск искусственно сгенерированных текстовых фрагментов в научных документах”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 308–317; Dokl. Math., 108:suppl. 2 (2023), S434

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 308–317
DOI: https://doi.org/10.31857/S2686954323601677 (Mi danma475)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Поиск искусственно сгенерированных текстовых фрагментов в научных документах

Г. М. Грицай^ab, А. В. Грабовой^abc, А. С. Кильдяков^a, Ю. В. Чехович^ac

^a Компания Антиплагиат, Москва, Россия
^b Московский физико-технический институт (национальный исследовательский университет), Москва, Россия
^c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Список цитирования (2)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.31857/S2686954323601677

Аннотация: Недавние достижения в области текстовых генеративных моделей позволяют получать искусственные тексты, едва отличимые от написанных человеком при беглом прочтении. Прогресс подобных моделей ставит новые задачи перед научным сообществом, ведь их развитие влечет за собой появление и распространение ложной информации, спама, способствует распространению неэтичных практик. В области обработки естественного языка уже разработано большое количество методов для детектирования текстов, полученных при помощи моделей машинного обучения, включая большие языковые модели. Однако улучшению методов выявления искусственных текстов происходит одновременно с улучшением методов генерации текстов, поэтому требуется изучение появляющихся моделей, искусственных текстов – результатов их работы и модернизации существующих подходов к детекции. В настоящей работе представлен детальный анализ ранее созданных методов детекции, а также исследование лексических, синтаксических и стилистических особенностей генерируемых фрагментов. В вычислительном эксперименте сравниваются различные методы детектирования машинной генерации в документах с точки зрения их дальнейшего применения для научных и учебных текстов. Эксперименты проводились для русского и английского языков на собранных авторами наборах данных. Разработанные методы позволили довести качество детектирования до значения 0.968 по метрике F1-score для русского и до 0.825 для английского языков соответственно. Созданные методы используются в практических системах для выявления сгенерированных фрагментов в научных, исследовательских и выпускных работах.

Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, множественная проверка гипотез, перефразирование, детекция сгенерированных текстов.

Статья представлена к публикации: А. Л. Семёнов
Поступило: 02.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S434–S442
DOI: https://doi.org/10.1134/S1064562423701211

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.89

Образец цитирования: Г. М. Грицай, А. В. Грабовой, А. С. Кильдяков, Ю. В. Чехович, “Поиск искусственно сгенерированных текстовых фрагментов в научных документах”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 308–317; Dokl. Math., 108:suppl. 2 (2023), S434–S442

Цитирование в формате AMSBIB

\RBibitem{GriGraKil23}

\by Г.~М.~Грицай, А.~В.~Грабовой, А.~С.~Кильдяков, Ю.~В.~Чехович

\paper Поиск искусственно сгенерированных текстовых фрагментов в научных документах

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2023

\vol 514

\issue 2

\pages 308--317

\mathnet{http://mi.mathnet.ru/danma475}

\crossref{https://doi.org/10.31857/S2686954323601677}

\elib{https://elibrary.ru/item.asp?id=56717843}

\transl

\jour Dokl. Math.

\yr 2023

\vol 108

\issue suppl. 2

\pages S434--S442

\crossref{https://doi.org/10.1134/S1064562423701211}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma475

https://www.mathnet.ru/rus/danma/v514/i2/p308

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	68
Список литературы:	11

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы