|
Информационные технологии в управлении
Обзор алгоритмов фонетического кодирования
В. С. Выхованецa, Ц. Дуb, С. А. Сакулинb a ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва
b МГТУ им. Н.Э. Баумана, Москва
Аннотация:
Приведен обзор алгоритмов фонетического кодирования, предназначенных для определения схожести слов по звучанию (произношению). Алгоритмы фонетического кодирования разделены на алгоритмы для сравнения слов и алгоритмы определения расстояния между словами. Описаны алгоритмы сравнения слов SoundEx, NYSIIS, Daitch-Mokotoff, Metaphone, Polyphone и алгоритмы вычисления расстояния между словами Левенштейна, Джаро, на основе N-грамм. Для каждого алгоритма указаны его достоинства и недостатки, приводится аналог алгоритма для русского языка. Для устранения общих недостатков алгоритмов фонетического кодирования предложено использовать не последовательности букв слов, а последовательности их элементарных звуков.
Ключевые слова:
алгоритм фонетического кодирования, фонетическое расстояние, индексирование слов по звучанию.
Поступила в редакцию: 12 сентября 2017 г. Опубликована: 31 мая 2018 г.
Образец цитирования:
В. С. Выхованец, Ц. Ду, С. А. Сакулин, “Обзор алгоритмов фонетического кодирования”, УБС, 73 (2018), 67–94
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ubs954 https://www.mathnet.ru/rus/ubs/v73/p67
|
|