|
Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)
Computing methodologies and applications
Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей
С. В. Моржов Ярославский государственный университет им. П. Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия
Аннотация:
Рост популярности онлайн-платформ, позволяющих пользователям общаться друг с другом, делиться мнениями о различных событиях, оставлять комментарии, подтолкнул к развитию алгоритмов обработки естественного языка. Десятки миллионов сообщений в день, которые публикуют пользователи отдельно взятой социальной сети, необходимо анализировать в режиме реального времени или близко к тому с целью модерации, чтобы не допустить распространение различной противозаконной или оскорбительной информации, угроз и других видов токсичных комментариев. Разумеется такой большой объем информации может быть обработан достаточно быстро только автоматически. Возникает необходимость научить компьютер «понимать» текст, написанный человеком, что является нетривиальной задачей, пусть даже под «пониманием» текста подразумевается лишь его классификация. Бурное развитие технологий машинного обучения обусловило повсеместное внедрение новых алгоритмов. Многие задачи, в том числе и задачи обработки естественного языка, которые долгие годы считалось практически невозможно решить, сейчас вполне успешно решаются с использованием технологий глубокого обучения. В данной статье будут рассмотрены алгоритмы, построенные с использованием технологий глубокого обучения и нейронных сетей, позволяющие успешно решать задачу распознавания и классификации токсичных комментариев. Помимо этого, в статье будут приведены результаты тестирования как разработанных алгоритмов, так и ансамбля данных алгоритмов на большой обучающей выборке, собранной и размеченной специалистами компаний Google и Jigsaw.
Ключевые слова:
токчисность, обработка естественного языка, NLP, глубокое обучение, векторное представление слов, GloVe, FastText, реккурентные нейронные сети, сверточные нейронные сети, CNN, LSTM, GRU.
Поступила в редакцию: 17.01.2020 Исправленный вариант: 25.02.2020 Принята в печать: 28.02.2020
Образец цитирования:
С. В. Моржов, “Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей”, Модел. и анализ информ. систем, 27:1 (2020), 48–61
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais702 https://www.mathnet.ru/rus/mais/v27/i1/p48
|
|