|
Математические основы программирования
Stable assessment of the quality of similarity algorithms
of character strings and their normalizations
[Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций]
S. V. Znamenskij Ailamazyan Program Systems Institute of Russian Academy of Sciences
Аннотация:
Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.
Ключевые слова и фразы:
сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.
Поступила в редакцию: 17.04.2018 03.12.2018 Подписана в печать : 28.12.2018
Образец цитирования:
S. V. Znamenskij, “Stable assessment of the quality of similarity algorithms
of character strings and their normalizations”, Программные системы: теория и приложения, 9:4 (2018), 561–578
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ps328 https://www.mathnet.ru/rus/ps/v9/i4/p561
|
Статистика просмотров: |
Страница аннотации: | 158 | PDF полного текста: | 63 | Список литературы: | 28 |
|