|
Discovering near duplicate text in software documentation
[Обнаружение неточно повторяющегося текста в документации программного обеспечения]
L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov Saint Petersburg State University
Аннотация:
При создании документации программного обеспечения часто применяется копирование и вставка с последующим редактированием, в результате чего возникает много повторяющегося текста. Такие повторы усложняют и удорожают поддержку документации, особенно в случае длительных жизненных циклов программного обеспечения и документации. Ещё более усложняет ситуацию то, что зачастую информация повторяется приблизительно, т.е. одна и та же информация может быть многократно представлена с разными уровнями детализации, в различных контекстах и т.д. В данной работе предложен алгоритм, предназначенный для обнаружения неточных повторов в документации программного обеспечения. Алгоритм основан на модели N-грамм и реализован с использованием Natural Language Toolkit. Алгоритм апробирован на документации нескольких проектов с открытым исходным кодом.
Ключевые слова:
документация программного обеспечения, нечёткие повторы, обработка текстов на естественных языках, модель N-грамм.
Образец цитирования:
L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov, “Discovering near duplicate text in software documentation”, Труды ИСП РАН, 29:4 (2017), 303–314
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp252 https://www.mathnet.ru/rus/tisp/v29/i4/p303
|
|