Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2021, том 13, выпуск 6, страницы 1291–1315
DOI: https://doi.org/10.20537/2076-7633-2021-13-6-1291-1315
(Mi crm949)
 

Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Обзор современных технологий извлечения знаний из текстовых сообщений

А. А. Мусаевa, Д. А. Григорьевb

a Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Россия, 199178, г. Санкт-Петербург, ВО, 14 линия, д. 39
b Санкт-Петербургский государственный университет (СПБГУ), Россия, 199034, г. Санкт-Петербург, Университетская набережная, 7–9
Список литературы:
Аннотация: Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов наестественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической информации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т. е.в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-08-00989
20-08-01046
Министерство науки и высшего образования Российской Федерации 0073-2019-0004
Санкт-Петербургский государственный университет 60419633
Работа выполнена при частичной финансовой поддержке грантов РФФИ (№№ 19-08-00989, 20-08-01046), в рамках бюджетной темы № 0073-2019-0004 (А. А. Мусаев), а также при финансовой поддержке гранта Санкт-Петербургского государственного университета № 60419633 и в рамках Программы исследований по эконометрике и бизнесаналитике Центра ЦЭБАСПбГУ (Д. А. Григорьев).
Поступила в редакцию: 20.04.2021
Исправленный вариант: 24.10.2021
Принята в печать: 26.10.2021
Тип публикации: Статья
УДК: 519.254
Образец цитирования: А. А. Мусаев, Д. А. Григорьев, “Обзор современных технологий извлечения знаний из текстовых сообщений”, Компьютерные исследования и моделирование, 13:6 (2021), 1291–1315
Цитирование в формате AMSBIB
\RBibitem{MusGri21}
\by А.~А.~Мусаев, Д.~А.~Григорьев
\paper Обзор современных технологий извлечения знаний из текстовых сообщений
\jour Компьютерные исследования и моделирование
\yr 2021
\vol 13
\issue 6
\pages 1291--1315
\mathnet{http://mi.mathnet.ru/crm949}
\crossref{https://doi.org/10.20537/2076-7633-2021-13-6-1291-1315}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm949
  • https://www.mathnet.ru/rus/crm/v13/i6/p1291
  • Эта публикация цитируется в следующих 4 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:286
    PDF полного текста:133
    Список литературы:40
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024