Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2017, том 29, выпуск 4, страницы 303–314
DOI: https://doi.org/10.15514/ISPRAS-2017-29(4)-21
(Mi tisp252)
 

Discovering near duplicate text in software documentation
[Обнаружение неточно повторяющегося текста в документации программного обеспечения]

L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov

Saint Petersburg State University
Список литературы:
Аннотация: При создании документации программного обеспечения часто применяется копирование и вставка с последующим редактированием, в результате чего возникает много повторяющегося текста. Такие повторы усложняют и удорожают поддержку документации, особенно в случае длительных жизненных циклов программного обеспечения и документации. Ещё более усложняет ситуацию то, что зачастую информация повторяется приблизительно, т.е. одна и та же информация может быть многократно представлена с разными уровнями детализации, в различных контекстах и т.д. В данной работе предложен алгоритм, предназначенный для обнаружения неточных повторов в документации программного обеспечения. Алгоритм основан на модели N-грамм и реализован с использованием Natural Language Toolkit. Алгоритм апробирован на документации нескольких проектов с открытым исходным кодом.
Ключевые слова: документация программного обеспечения, нечёткие повторы, обработка текстов на естественных языках, модель N-грамм.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 16-01-00304
Работа частично поддержана грантом РФФИ №16-01-00304
Реферативные базы данных:
Тип публикации: Статья
Язык публикации: английский
Образец цитирования: L. D. Kanteev, Yu. O. Kostyukov, D. V. Luciv, D. V. Koznov, M. N. Smirnov, “Discovering near duplicate text in software documentation”, Труды ИСП РАН, 29:4 (2017), 303–314
Цитирование в формате AMSBIB
\RBibitem{KanKosLuc17}
\by L.~D.~Kanteev, Yu.~O.~Kostyukov, D.~V.~Luciv, D.~V.~Koznov, M.~N.~Smirnov
\paper Discovering near duplicate text in software documentation
\jour Труды ИСП РАН
\yr 2017
\vol 29
\issue 4
\pages 303--314
\mathnet{http://mi.mathnet.ru/tisp252}
\crossref{https://doi.org/10.15514/ISPRAS-2017-29(4)-21}
\elib{https://elibrary.ru/item.asp?id=29968661}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp252
  • https://www.mathnet.ru/rus/tisp/v29/i4/p303
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:136
    PDF полного текста:67
    Список литературы:27
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024