|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
МОДЕЛИ В ФИЗИКЕ И ТЕХНОЛОГИИ
Эффективный алгоритм сравнения документов в формате LATEX
К. В. Чувилин Московский физико-технический институт (ГУ), Россия, 141700, Московская область, г. Долгопрудный, Институтский переулок, д. 9
Аннотация:
Рассматривается задача построения различий, возникающих при редактировании документов в формате LATEX. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang-Shasha.
Ключевые слова:
автоматизация, анализ текста, лексема, машинное обучение, метрика, редактирующее расстояние, синтаксическое дерево, токен, LATEX.
Поступила в редакцию: 16.07.2013 Исправленный вариант: 04.02.2015
Образец цитирования:
К. В. Чувилин, “Эффективный алгоритм сравнения документов в формате LATEX”, Компьютерные исследования и моделирование, 7:2 (2015), 329–345
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm191 https://www.mathnet.ru/rus/crm/v7/i2/p329
|
Статистика просмотров: |
Страница аннотации: | 163 | PDF полного текста: | 206 | Список литературы: | 29 |
|