Аннотация:
В докладе речь пойдёт о задачах автоматической обработки текстов, возникающих при анализе новостного потока: поиске дубликатов, связывании именованных сущностей и классификации текстов (в supervised и semisupervised постановках). Будут освещены основные подходы к решению рассмотренных задач и используемые в них техники: векторные представления текстов и слов, алгоритмы поиска ближайших соседей, нейросети для распознавания именованных сущностей, тематическое моделирование.