|
Использование хеш-функций для повышения скорости морфологического анализа
Н. В. Сомин, М. М. Шарнин Институт проблем информатики Российской академии наук
Аннотация:
Рассматривается проблема повышения эффективности морфологического анализа русского языка. Описывается разработанная в ИПИ РАН система морфологического анализа: набор морфологических характеристик и алгоритмы работы. Указываются задачи и системы, связанные с проблемой логико-семантического анализа текстов, в которых данная морфологическая система нашла применение. Обсуждаются особенности системы с точки зрения занимаемой памяти и скорости работы. Предлагается способ хранения морфо-лексической информации с помощью хеш-функций, обеспечивающих высокую скорость доступа. Обсуждаются трудности, возникающие при реализации такого подхода, и рассматриваются пути их преодоления. Приводится структура информационных массивов новой версии и реализованные в ней поисковые алгоритмы, а также даются сведения по подсистеме ввода и корректировки морфологической информации. Приводятся конкретные параметры новой реализации морфологической системы и данные по ускорению работы по сравнению с предыдущей версией. В заключение обсуждаются возможности по развитию новой версии морфологии и перенесению предложенного подхода к реализации на другие компоненты лингвистического процессора.
Ключевые слова:
морфологический анализ; лингвистический процессор; морфологическая омонимия; хеш-функция.
Поступила в редакцию: 12.08.2014
Образец цитирования:
Н. В. Сомин, М. М. Шарнин, “Использование хеш-функций для повышения скорости морфологического анализа”, Системы и средства информ., 24:3 (2014), 204–217
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi370 https://www.mathnet.ru/rus/ssi/v24/i3/p204
|
|