Loading [MathJax]/jax/output/SVG/config.js
Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2024, том 520, номер 2, страницы 228–237
DOI: https://doi.org/10.31857/S2686954324700590
(Mi danma602)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии

Г. М. Грицайab, И. А. Хабутдиновab, А. В. Грабовойab

a Компания Антиплагиат, Москва, Россия
b Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Аннотация: Развитие больших языковых моделей (LLM) в настоящее время вызывает большой интерес в научном сообществе, в то же время прогресс методов генерации текстов стимулирует рост и постоянное обновление подходов обнаружения машинно-сгенерированных фрагментов. В более ранних исследованиях было отмечено, что значения перплексии и логарифмической функции вероятности способны отразить меру разницы между искусственными и написанными человеком текстами. На основе этого наблюдения в данной работе вводится новый критерий, который позволяет делать вывод о принадлежности текстового фрагмента конкретной LLM. В текущем исследовании предлагается новый эффективный метод, который позволяет обнаруживать искусственно-сгенерированные фрагменты с помощью аппроксимации значения перплексии у LLM. Приближение основано на предварительно собранных статистических языковых моделях. Аппроксимация позволяет достичь высоких показателей производительности системы и качества, в том числе и для фрагментов, сгенерированных большими языковыми моделями, веса которых не были опубликованы. Большое количество предварительно собранных словарей статистик повышает способность к обобщению и позволяет охватывать текстовые последовательности, которые не встречались ранее. Описанный в работе подход легко обновлять, необходим лишь новый словарь статистик, основанный на текстах, сгенерированных желаемой языковой моделью. Представленный метод в среднем достигает 94% полноты обнаружения сгенерированных фрагментов среди текстов из различных LLM, а одна проверка совершается за миллисекунды, что превосходит современные подходы в тысячи раз.
Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, перплексия, большие языковые модели, обнаружение сгенерированных текстов.
Поступило: 27.09.2024
Принято к публикации: 02.10.2024
Англоязычная версия:
Doklady Mathematics, 2024, Volume 110, Issue suppl. 2, Pages S203–S211
DOI: https://doi.org/10.1134/S1064562424602075
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.(89+93)
Образец цитирования: Г. М. Грицай, И. А. Хабутдинов, А. В. Грабовой, “Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 228–237; Dokl. Math., 110:suppl. 2 (2024), S203–S211
Цитирование в формате AMSBIB
\RBibitem{GriKhaGra24}
\by Г.~М.~Грицай, И.~А.~Хабутдинов, А.~В.~Грабовой
\paper Stack more LLMs: эффективное обнаружение машинно-сгенерированных текстов с помощью аппроксимации значений перплексии
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2024
\vol 520
\issue 2
\pages 228--237
\mathnet{http://mi.mathnet.ru/danma602}
\crossref{https://doi.org/10.31857/S2686954324700590}
\elib{https://elibrary.ru/item.asp?id=80287450}
\transl
\jour Dokl. Math.
\yr 2024
\vol 110
\issue suppl. 2
\pages S203--S211
\crossref{https://doi.org/10.1134/S1064562424602075}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma602
  • https://www.mathnet.ru/rus/danma/v520/i2/p228
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:17
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025