Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2016, выпуск 49, страницы 104–121
DOI: https://doi.org/10.15622/sp.49.6
(Mi trspy919)
 

Эта публикация цитируется в 7 научных статьях (всего в 7 статьях)

Методы управления и обработки информации

Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам

А. О. Шумская

Томский государственный университет систем управления и радиоэлектроники (ТУСУР)
Аннотация: Работа посвящена вопросу идентификации текстов, сгенерированных автоматически (искусственно) с помощью программных алгоритмов. Данная задача является актуальной в связи с ростом распространения таких текстов, распространяемых в Интернете. Создаваемые «копии» веб-страниц используются для привлечения читателей к интернет-ресурсам, а также для распространения большого количества уникальных экземпляров страниц с контентом определенной направленности.
В статье описаны особенности определения происхождения текста на примере работы с текстами, порожденными методом синонимизации, как наиболее распространенного метода генерации искусственных текстов, представляющих собой веб-контент. Предложен инвариант искусственно созданных текстов, представляющий собой набор значений текстовых характеристик, который позволяет классифицировать тексты по способу их создания. Предложен метод определения искусственно созданных текстов на основе расчета меры принадлежности входного текста к инвариантам, позволяющий принять решение о происхождении текста. В статье также приведены значения, полученные в ходе проведения серии экспериментов по определению искусственно созданных текстов.
Ключевые слова: автоматически сгенерированные тексты; искусственные тексты; массовое порождение текстов; текстовые характеристики; атрибуция текста.
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.072.7
Образец цитирования: А. О. Шумская, “Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам”, Тр. СПИИРАН, 49 (2016), 104–121
Цитирование в формате AMSBIB
\RBibitem{Shu16}
\by А.~О.~Шумская
\paper Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам
\jour Тр. СПИИРАН
\yr 2016
\vol 49
\pages 104--121
\mathnet{http://mi.mathnet.ru/trspy919}
\crossref{https://doi.org/10.15622/sp.49.6}
\elib{https://elibrary.ru/item.asp?id=27657125}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy919
  • https://www.mathnet.ru/rus/trspy/v49/p104
  • Эта публикация цитируется в следующих 7 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:214
    PDF полного текста:110
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024