|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением
С. А. Князятов, Г. Г. Малинецкий
Аннотация:
В работе исследуется возможность построения алгоритма на основе обучения с подкреплением для задачи распознавания и использования блефа в карточной игре «верю — не верю». Построенный алгоритм обладает «интеллектуальной способностью» перестраивать свою стратегию поведения и оценивать возможные ходы, основываясь на предыдущем опыте. Данный класс алгоритмов используется для принятия решений в быстроменяющихся средах. Описаны способ и результаты сравнения алгоритмов между собой, результаты игр лучших алгоритмов с реальным соперником. Обнаружен эффект «переобучения» — увеличение количества обучающих партий в ряде случаев не улучшает, а ухудшает качество работы алгоритма.
Ключевые слова:
обучение с подкреплением, математическое моделирование,
$Q$-обучение, метод SARSA($\lambda$), алгоритм распознавания блефа, имитация блефа,
нейронные сети, высокоскоростное принятие решений.
Образец цитирования:
С. А. Князятов, Г. Г. Малинецкий, “Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением”, Препринты ИПМ им. М. В. Келдыша, 2018, 170, 21 с.
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ipmp2529 https://www.mathnet.ru/rus/ipmp/y2018/p170
|
Статистика просмотров: |
Страница аннотации: | 253 | PDF полного текста: | 195 | Список литературы: | 24 |
|