Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2019, выпуск 18, том 2, страницы 354–389
DOI: https://doi.org/10.15622/sp.18.2.354-389
(Mi trspy1049)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Искусственный интеллект, инженерия данных и знаний

Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU»

Я. А. Селиверстовab, В. И. Чигурc, А. М. Сазановa, С. А. Селиверстовab, А. С. Свистуноваd

a Санкт-Петербургский политехнический университет Петра Великого
b Федеральное государственное бюджетное учреждение науки Институт проблем транспорта им. Н.С. Соломенко Российской академии наук (ИПТ РАН)
c Санкт-Петербургский государственный университет (СПбГУ)
d Федеральное государственное бюджетное учреждение науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
Аннотация: Социальные сети (Вконтакте, Facebook), тематические сообщества в сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor) и транспортные порталы (Autostrada) являются источником актуальной и оперативной информации о дорожно-транспортной обстановке, качестве предоставляемых транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного обслуживания. Однако существующие системы транспортного мониторинга не содержат программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается задача построения системы автоматического извлечения и классификации дорожнотранспортной информации с транспортных интернет-порталов и апробация разработанной системы для анализа транспортных сетей Крыма и города Севастополя. Для решения этой задачи проанализированы библиотеки с открытым исходным кодом для тематического сбора и исследования данных. Разработан алгоритм для извлечения и анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на языке Python3 и собраны отзывы пользователей с портала http://autostrada.info/ru о состоянии транспортной системы Крыма и города Севастополя. Для лемматизации текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и модель линейного классификатора с оптимизацией стохастического градиентного спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом 225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации. По результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города Севастополя. Сделаны выводы и определены перспективы дальнейшего функционального развития разрабатываемого инструментария.
Ключевые слова: автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, наивный байесовский алгоритм, линейный классификатор, анализ тональности.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-410-920016
Работа выполнена при поддержке гранта РФФИ № 18-410-920016 в рамках инициативного проекта, проводимого совместно с Правительством Севастополя на тему: «Исследование социально-экономических и экологических процессов города Севастополя с ростом индустриального, транспортно-транзитного и туристского потенциалов».
Поступила в редакцию: 19.02.2019
Реферативные базы данных:
Тип публикации: Статья
УДК: 656, 004.8, 007.5, 51-74, 510.67
Образец цитирования: Я. А. Селиверстов, В. И. Чигур, А. М. Сазанов, С. А. Селиверстов, А. С. Свистунова, “Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU»”, Тр. СПИИРАН, 18:2 (2019), 354–389
Цитирование в формате AMSBIB
\RBibitem{SelChiSaz19}
\by Я.~А.~Селиверстов, В.~И.~Чигур, А.~М.~Сазанов, С.~А.~Селиверстов, А.~С.~Свистунова
\paper Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU»
\jour Тр. СПИИРАН
\yr 2019
\vol 18
\issue 2
\pages 354--389
\mathnet{http://mi.mathnet.ru/trspy1049}
\crossref{https://doi.org/10.15622/sp.18.2.354-389}
\elib{https://elibrary.ru/item.asp?id=37305497}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1049
  • https://www.mathnet.ru/rus/trspy/v18/i2/p354
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:260
    PDF полного текста:181
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024