Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2020, том 12, выпуск 1, страницы 243–254
DOI: https://doi.org/10.20537/2076-7633-2020-12-1-243-254
(Mi crm782)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Статистический анализ биграмм специализированных текстов

Н. А. Митин, Ю. Н. Орлов

Федеральный исследовательский центр «Институт прикладной математики им. М. В. Келдыша РАН», Россия, 125047, г. Москва, Миусская пл., д. 4
Список литературы:
Аннотация: Метод спектрального анализа стохастической матрицы применяется для построения индикатора, позволяющего определять тематику научных текстов без использования ключевых слов. Эта матрица представляет собой матрицу условных вероятностей биграмм, построенную по статистике используемых в тексте символов алфавита без учета пробелов, цифр и знаков препинания. Научные тексты классифицируются по взаимному расположению инвариантных подпространств матрицы условных вероятностей пар буквосочетаний. Индикатор разделения — величина косинуса угла между правым и левым собственными векторами, отвечающими максимальному и минимальному собственным значениям. Вычислительный алгоритм использует специальное представление параметра дихотомии, в качестве которого выступает интеграл от нормы квадрата резольвенты стохастической матрицы биграмм по окружности заданного радиуса в комплексной плоскости. Стремление интеграла в бесконечность свидетельствует о приближении контура интегрирования к собственному значению матрицы. В работе приведены типовые распределения индикатора идентификации специальностей. Для статистического анализа были проанализированы диссертации по основным 19 специальностям ВАК без учета классификации внутри специальности, по 20 текстов на специальность. Выяснилось, что эмпирические распределения косинуса угла для физико-математических и гуманитарных специальностей не имеют общего носителя, поэтому могут быть формально разделены по значению этого индикатора без ошибки. Хотя корпус текстов был не особенно большой, тем не менее при произвольном отборе диссертаций ошибка идентификации на уровне 2% представляется очень хорошим результатом по сравнению с методами, основанными на семантическом анализе. Также выяснилось, что можно составить паттерн текста по каждой из специальностей в виде эталонной матрицы биграмм, по близости к которой в норме суммируемых функций можно безошибочно идентифицировать тематику написанного научного произведения, не используя ключевые слова. Предложенный метод можно использовать и в качестве сравнительного индикатора большей или меньшей строгости научного текста или как индикатор соответствия текста определенному научному уровню.
Ключевые слова: стохастическая матрица, спектральный портрет, статистический индикатор, научный текст.
Поступила в редакцию: 21.08.2019
Исправленный вариант: 24.11.2019
Принята в печать: 26.11.2019
Тип публикации: Статья
УДК: 519.25
Образец цитирования: Н. А. Митин, Ю. Н. Орлов, “Статистический анализ биграмм специализированных текстов”, Компьютерные исследования и моделирование, 12:1 (2020), 243–254
Цитирование в формате AMSBIB
\RBibitem{MitOrl20}
\by Н.~А.~Митин, Ю.~Н.~Орлов
\paper Статистический анализ биграмм специализированных текстов
\jour Компьютерные исследования и моделирование
\yr 2020
\vol 12
\issue 1
\pages 243--254
\mathnet{http://mi.mathnet.ru/crm782}
\crossref{https://doi.org/10.20537/2076-7633-2020-12-1-243-254}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm782
  • https://www.mathnet.ru/rus/crm/v12/i1/p243
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:231
    PDF полного текста:66
    Список литературы:31
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024