С. А. Князятов, Г. Г. Малинецкий, “Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением”, Препринты ИПМ им. М. В. Келдыша, 2018, 170, 21 с.

Препринты Института прикладной математики им. М. В. Келдыша РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Препринты ИПМ им. М. В. Келдыша:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Препринты Института прикладной математики им. М. В. Келдыша РАН, 2018, 170, 21 стр.
DOI: https://doi.org/10.20948/prepr-2018-170 (Mi ipmp2529)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением

С. А. Князятов, Г. Г. Малинецкий

PDF полного текста (911 kB) Список цитирования (2)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.20948/prepr-2018-170

Аннотация: В работе исследуется возможность построения алгоритма на основе обучения с подкреплением для задачи распознавания и использования блефа в карточной игре «верю — не верю». Построенный алгоритм обладает «интеллектуальной способностью» перестраивать свою стратегию поведения и оценивать возможные ходы, основываясь на предыдущем опыте. Данный класс алгоритмов используется для принятия решений в быстроменяющихся средах. Описаны способ и результаты сравнения алгоритмов между собой, результаты игр лучших алгоритмов с реальным соперником. Обнаружен эффект «переобучения» — увеличение количества обучающих партий в ряде случаев не улучшает, а ухудшает качество работы алгоритма.

Ключевые слова: обучение с подкреплением, математическое моделирование, $Q$-обучение, метод SARSA($\lambda$), алгоритм распознавания блефа, имитация блефа, нейронные сети, высокоскоростное принятие решений.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	16-01-00342_а
Работа выполнена при поддержке РФФИ проект 16-01-00342.

Реферативные базы данных:

Тип публикации: Препринт

Образец цитирования: С. А. Князятов, Г. Г. Малинецкий, “Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением”, Препринты ИПМ им. М. В. Келдыша, 2018, 170, 21 с.

Цитирование в формате AMSBIB

\RBibitem{KnyMal18}

\by С.~А.~Князятов, Г.~Г.~Малинецкий

\paper Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением

\jour Препринты ИПМ им.~М.~В.~Келдыша

\yr 2018

\papernumber 170

\totalpages 21

\mathnet{http://mi.mathnet.ru/ipmp2529}

\crossref{https://doi.org/10.20948/prepr-2018-170}

\elib{https://elibrary.ru/item.asp?id=35458678}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/ipmp2529

https://www.mathnet.ru/rus/ipmp/y2018/p170

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Препринты Института прикладной математики им. М. В. Келдыша РАН

Статистика просмотров:
Страница аннотации:	258
PDF полного текста:	196
Список литературы:	26

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы