iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999505.8 (22)申请日 2022.08.19 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 朱进 黄蕾  (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 金怡 (51)Int.Cl. G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于PPO-CF R算法的非完全信息博弈策 略优化方法 (57)摘要 本发明涉及提供一种基于PPO ‑CFR算法的非 完全信息博弈策略优化方法, 设计一个PPO智能 体, 将现存CF R变体中的后悔 更新方式作为PPO智 能体可以选择的动作, 并利用迭代博弈策略的可 利用度构造智能体的奖励值, 从而使得PPO智能 体能够在每一时间步中选择最合适的后悔更新 方法, 以提高CF R算法的泛化性能, 并达成非完全 信息博弈的策略优化, 从而解决了现有CFR及其 变体算法在非完全信息博弈下表现各有优劣、 泛 化性能薄弱的问题, 可以在卡牌等非完全信息博 弈中获得良好的泛化性能和较低的可利用度, 同 时迭代策略能够收敛到 近似纳什均衡策略。 权利要求书2页 说明书4页 附图2页 CN 115456181 A 2022.12.09 CN 115456181 A 1.一种基于P PO‑CFR算法的非完全信息博 弈策略优化方法, 其特 征在于, 包括: 步骤S1: 运行表格式CFR算法, 记录与迭代次数t相关的最小可利用度 其中, 所述表 格式CFR算法包括: 普通CFR、 线性CFR、 CFR+、 折扣CFR和指数CFR; 步骤S2: 初始化经验池D, 初始化PPO算法中行动者Actor和目标行动者TargetActor的 网络参数, 以及评论家Critic和目标评论家TargetCritic的网络参数; 步骤S3: 在第t次迭代中, 以随机状态st、 博弈策略σt开始博弈; 步骤S4: PPO算 法中的Actor网络在该状态st下经过归 一化后得到概率值pro, 利用pro类 别分布采样获得动作 并将 作为现有CFR算法中第i个CFR的后悔计算方式; 步骤S5: 执 行动作 用对应的所述后悔 计算方式计算非完全信息博 弈的信息集中每 个 动作的后悔值, 并将其作为下一次迭代状态st+1, 然后用所述后悔计算方式 更新下一次迭 代t+1的策略σt+1, 其中信息集是非完全信息博 弈中无法区分的状态集 合; 步骤S6: 获得 该轮博弈中的可利用度Et, 同时利用奖励函数计算奖励值 步骤S7: 在经验 池D中存储样本 步骤S8: 从所述经验池D随机采样N个样本 通过最小化Actor网络 和Critic网络所对应的损失函数来更新 其对应的网络参数θu和 θq; 步骤S9: 每隔M步令θ'u=θu, θ'p=θp; 步骤S10: 当t<T时, 重复步骤S3~S9, 其中, T为预设的迭代次数; 否则, 获得平均策略 2.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S6中奖励值 的计算公式(1)如下 所示: 其中, Et是当前策略在第t次迭代中的实际可利用度, 是在第t次迭代中最小可利用 度。 3.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S8中Actor 网络和Critic网络所对应的损失函数J( θ )的计算公式(2)~(4)如 下所示: 其中, 公式(2)中c1,c2是两个超参数; 表示状态值估计, Gt表示目标评价网络获得 的状态值, H( πθ(·)|st)表示熵奖励; 公式(3)中 表示估计的优势函数, r( θ )是重要性采样权重, 函数clip(r( θ ),1 ‑∈,1权 利 要 求 书 1/2 页 2 CN 115456181 A 2+∈)将r( θ )的值限制在[1 ‑∈,1+∈], ∈为截断因子 。 4.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S10中获得平均策略 具体包括: 当t=T时, 迭代结束, 此时所述平均策略 将会成为 的纳什均衡策略; 其中, I为所述信息集, A为非完全信息博 弈中的可选动作集。权 利 要 求 书 2/2 页 3 CN 115456181 A 3

.PDF文档 专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法 第 1 页 专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法 第 2 页 专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。