Аннотация:
В докладе я отчасти расскажу об исследованиях, которые происходили в Лаборатории искусственного интеллекта ПОМИ РАН в последние пару лет, но в целом оберну это в контекст того, как выглядят современные мультимодальные модели машинного обучения (хотя кого я обманываю — глубокого обучения, конечно). Мы поговорим о том, как объединить картинки и тексты (а может быть, и что-то ещё), и, надеюсь, увидим эту область как перспективное и пока ещё только начинающееся направление для того, куда можно двигать искусственный интеллект.