Г. М. Грицай, И. А. Хабутдинов, А. В. Грабовой, “Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 228–237; Dokl. Math., 110:suppl. 2 (2024), S203

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2024, том 520, номер 2, страницы 228–237
DOI: https://doi.org/10.31857/S2686954324700590 (Mi danma602)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии

Г. М. Грицай^ab, И. А. Хабутдинов^ab, А. В. Грабовой^ab

^a Компания Антиплагиат, Москва, Россия
^b Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

DOI: https://doi.org/10.31857/S2686954324700590

Аннотация: Развитие больших языковых моделей (LLM) в настоящее время вызывает большой интерес в научном сообществе, в то же время прогресс методов генерации текстов стимулирует рост и постоянное обновление подходов обнаружения машинно-сгенерированных фрагментов. В более ранних исследованиях было отмечено, что значения перплексии и логарифмической функции вероятности способны отразить меру разницы между искусственными и написанными человеком текстами. На основе этого наблюдения в данной работе вводится новый критерий, который позволяет делать вывод о принадлежности текстового фрагмента конкретной LLM. В текущем исследовании предлагается новый эффективный метод, который позволяет обнаруживать искусственно-сгенерированные фрагменты с помощью аппроксимации значения перплексии у LLM. Приближение основано на предварительно собранных статистических языковых моделях. Аппроксимация позволяет достичь высоких показателей производительности системы и качества, в том числе и для фрагментов, сгенерированных большими языковыми моделями, веса которых не были опубликованы. Большое количество предварительно собранных словарей статистик повышает способность к обобщению и позволяет охватывать текстовые последовательности, которые не встречались ранее. Описанный в работе подход легко обновлять, необходим лишь новый словарь статистик, основанный на текстах, сгенерированных желаемой языковой моделью. Представленный метод в среднем достигает 94% полноты обнаружения сгенерированных фрагментов среди текстов из различных LLM, а одна проверка совершается за миллисекунды, что превосходит современные подходы в тысячи раз.

Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, перплексия, большие языковые модели, обнаружение сгенерированных текстов.

Поступило: 27.09.2024
Принято к публикации: 02.10.2024

Англоязычная версия:
Doklady Mathematics, 2024, Volume 110, Issue suppl. 2, Pages S203–S211
DOI: https://doi.org/10.1134/S1064562424602075

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.(89+93)

Образец цитирования: Г. М. Грицай, И. А. Хабутдинов, А. В. Грабовой, “Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 228–237; Dokl. Math., 110:suppl. 2 (2024), S203–S211

Цитирование в формате AMSBIB

\RBibitem{GriKhaGra24}

\by Г.~М.~Грицай, И.~А.~Хабутдинов, А.~В.~Грабовой

\paper Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2024

\vol 520

\issue 2

\pages 228--237

\mathnet{http://mi.mathnet.ru/danma602}

\crossref{https://doi.org/10.31857/S2686954324700590}

\elib{https://elibrary.ru/item.asp?id=80287450}

\transl

\jour Dokl. Math.

\yr 2024

\vol 110

\issue suppl. 2

\pages S203--S211

\crossref{https://doi.org/10.1134/S1064562424602075}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma602

https://www.mathnet.ru/rus/danma/v520/i2/p228

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	17

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы