L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov, “Discovering near duplicate text in software documentation”, Труды ИСП РАН, 29:4 (2017), 303

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2017, том 29, выпуск 4, страницы 303–314
DOI: https://doi.org/10.15514/ISPRAS-2017-29(4)-21 (Mi tisp252)

Discovering near duplicate text in software documentation

[Обнаружение неточно повторяющегося текста в документации программного обеспечения]

L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov

Saint Petersburg State University

PDF полного текста (905 kB)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.15514/ISPRAS-2017-29(4)-21

Аннотация: При создании документации программного обеспечения часто применяется копирование и вставка с последующим редактированием, в результате чего возникает много повторяющегося текста. Такие повторы усложняют и удорожают поддержку документации, особенно в случае длительных жизненных циклов программного обеспечения и документации. Ещё более усложняет ситуацию то, что зачастую информация повторяется приблизительно, т.е. одна и та же информация может быть многократно представлена с разными уровнями детализации, в различных контекстах и т.д. В данной работе предложен алгоритм, предназначенный для обнаружения неточных повторов в документации программного обеспечения. Алгоритм основан на модели N-грамм и реализован с использованием Natural Language Toolkit. Алгоритм апробирован на документации нескольких проектов с открытым исходным кодом.

Ключевые слова: документация программного обеспечения, нечёткие повторы, обработка текстов на естественных языках, модель N-грамм.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	16-01-00304
Работа частично поддержана грантом РФФИ №16-01-00304

Реферативные базы данных:

Тип публикации: Статья

Язык публикации: английский

Образец цитирования: L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov, “Discovering near duplicate text in software documentation”, Труды ИСП РАН, 29:4 (2017), 303–314

Цитирование в формате AMSBIB

\RBibitem{KanKosLuc17}

\by L.~D.~Kanteev, Yu.~O.~Kostyukov, D.~V.~Luciv, D.~V.~Koznov, M.~N.~Smirnov

\paper Discovering near duplicate text in software documentation

\jour Труды ИСП РАН

\yr 2017

\vol 29

\issue 4

\pages 303--314

\mathnet{http://mi.mathnet.ru/tisp252}

\crossref{https://doi.org/10.15514/ISPRAS-2017-29(4)-21}

\elib{https://elibrary.ru/item.asp?id=29968661}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp252

https://www.mathnet.ru/rus/tisp/v29/i4/p303

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы