А. А. Мусаев, Д. А. Григорьев, “Обзор современных технологий извлечения знаний из текстовых сообщений”, Компьютерные исследования и моделирование, 13:6 (2021), 1291

Компьютерные исследования и моделирование

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Компьютерные исследования и моделирование, 2021, том 13, выпуск 6, страницы 1291–1315
DOI: https://doi.org/10.20537/2076-7633-2021-13-6-1291-1315 (Mi crm949)

Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Обзор современных технологий извлечения знаний из текстовых сообщений

А. А. Мусаев^a, Д. А. Григорьев^b

^a Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Россия, 199178, г. Санкт-Петербург, ВО, 14 линия, д. 39
^b Санкт-Петербургский государственный университет (СПБГУ), Россия, 199034, г. Санкт-Петербург, Университетская набережная, 7–9

PDF полного текста (324 kB) Список цитирования (4)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.20537/2076-7633-2021-13-6-1291-1315

Аннотация: Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов наестественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической информации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т. е.в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.

Ключевые слова: извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	19-08-00989 20-08-01046
Министерство науки и высшего образования Российской Федерации	0073-2019-0004
Санкт-Петербургский государственный университет	60419633
Работа выполнена при частичной финансовой поддержке грантов РФФИ (№№ 19-08-00989, 20-08-01046), в рамках бюджетной темы № 0073-2019-0004 (А. А. Мусаев), а также при финансовой поддержке гранта Санкт-Петербургского государственного университета № 60419633 и в рамках Программы исследований по эконометрике и бизнесаналитике Центра ЦЭБАСПбГУ (Д. А. Григорьев).

Поступила в редакцию: 20.04.2021
Исправленный вариант: 24.10.2021
Принята в печать: 26.10.2021

Тип публикации: Статья

УДК: 519.254

Образец цитирования: А. А. Мусаев, Д. А. Григорьев, “Обзор современных технологий извлечения знаний из текстовых сообщений”, Компьютерные исследования и моделирование, 13:6 (2021), 1291–1315

Цитирование в формате AMSBIB

\RBibitem{MusGri21}

\by А.~А.~Мусаев, Д.~А.~Григорьев

\paper Обзор современных технологий извлечения знаний из текстовых сообщений

\jour Компьютерные исследования и моделирование

\yr 2021

\vol 13

\issue 6

\pages 1291--1315

\mathnet{http://mi.mathnet.ru/crm949}

\crossref{https://doi.org/10.20537/2076-7633-2021-13-6-1291-1315}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/crm949

https://www.mathnet.ru/rus/crm/v13/i6/p1291

Эта публикация цитируется в следующих 4 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Компьютерные исследования и моделирование

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы