С. В. Знаменский, “Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций”, Программные системы: теория и приложения, 9:4 (2018), 579

Программные системы: теория и приложения

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Правила для авторов
	Загрузить рукопись

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Программные системы: теория и приложения:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Программные системы: теория и приложения, 2018, том 9, выпуск 4, страницы 579–596
DOI: https://doi.org/10.25209/2079-3316-2018-9-4-579-596 (Mi ps329)

Математические основы программирования

Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций

С. В. Знаменский

Институт программных систем им. А. К. Айламазяна РАН

PDF полного текста (3957 kB)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.25209/2079-3316-2018-9-4-579-596

Аннотация: Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.

Ключевые слова и фразы: сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.

Поступила в редакцию: 17.04.2018
03.12.2018
Подписана в печать : 28.12.2018

Тип публикации: Статья

УДК: 519.652.3

Образец цитирования: С. В. Знаменский, “Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций”, Программные системы: теория и приложения, 9:4 (2018), 579–596

Цитирование в формате AMSBIB

\RBibitem{Zna18}

\by С.~В.~Знаменский

\paper Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций

\jour Программные системы: теория и приложения

\yr 2018

\vol 9

\issue 4

\pages 579--596

\mathnet{http://mi.mathnet.ru/ps329}

\crossref{https://doi.org/10.25209/2079-3316-2018-9-4-579-596}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/ps329

https://www.mathnet.ru/rus/ps/v9/i4/p579

Перевод статьи

Stable assessment of the quality of similarity algorithms of character strings and their normalizations
S. V. Znamenskij
Программные системы: теория и приложения, 2018, 9:4, 561–578

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Программные системы: теория и приложения

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы