|
Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Обзор современных технологий извлечения знаний из текстовых сообщений
А. А. Мусаевa, Д. А. Григорьевb a Санкт-Петербургский институт
информатики и автоматизации Российской академии наук (СПИИРАН),
Россия, 199178, г. Санкт-Петербург, ВО, 14 линия, д. 39
b Санкт-Петербургский государственный университет (СПБГУ),
Россия, 199034, г. Санкт-Петербург, Университетская набережная, 7–9
Аннотация:
Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов наестественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической информации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т. е.в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова:
извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Поступила в редакцию: 20.04.2021 Исправленный вариант: 24.10.2021 Принята в печать: 26.10.2021
Образец цитирования:
А. А. Мусаев, Д. А. Григорьев, “Обзор современных технологий извлечения знаний из текстовых сообщений”, Компьютерные исследования и моделирование, 13:6 (2021), 1291–1315
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm949 https://www.mathnet.ru/rus/crm/v13/i6/p1291
|
Статистика просмотров: |
Страница аннотации: | 286 | PDF полного текста: | 133 | Список литературы: | 40 |
|