|
Математические основы программирования
Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций
С. В. Знаменский Институт программных систем им. А. К. Айламазяна РАН
Аннотация:
Выбор средств поиска скрытой общности в данных новой
природы требует устойчивых и воспроизводимых сравнительных оценок
качества абстрактных алгоритмов близости символьных строк. Обычные
оценка на основе искусственно сгенерированных или вручную размеченных
тестов существенно разнятся, надёжнее оценивая метод этой искусственной
генерации по отношению к алгоритмам сходства, а оценки на базе данных
пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая
численная оценка качества метрики на строках. Используются параллельные
тексты переводов книг на разные языки. Качество меры оценивается
процентом ошибок в возможных различных попытках определения перевода
данного абзаца среди двух абзацев книги на другом языке, один из которых
действительно является переводом. Устойчивость оценок верифицируется
независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость
от выбора нормализации.
Ключевые слова и фразы:
сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.
Поступила в редакцию: 17.04.2018 03.12.2018 Подписана в печать : 28.12.2018
Образец цитирования:
С. В. Знаменский, “Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций”, Программные системы: теория и приложения, 9:4 (2018), 579–596
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ps329 https://www.mathnet.ru/rus/ps/v9/i4/p579
|
|