iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999505.8 (22)申请日 2022.08.19 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 朱进 黄蕾 (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 金怡 (51)Int.Cl. G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于PPO-CF R算法的非完全信息博弈策 略优化方法 (57)摘要 本发明涉及提供一种基于PPO ‑CFR算法的非 完全信息博弈策略优化方法, 设计一个PPO智能 体, 将现存CF R变体中的后悔 更新方式作为PPO智 能体可以选择的动作, 并利用迭代博弈策略的可 利用度构造智能体的奖励值, 从而使得PPO智能 体能够在每一时间步中选择最合适的后悔更新 方法, 以提高CF R算法的泛化性能, 并达成非完全 信息博弈的策略优化, 从而解决了现有CFR及其 变体算法在非完全信息博弈下表现各有优劣、 泛 化性能薄弱的问题, 可以在卡牌等非完全信息博 弈中获得良好的泛化性能和较低的可利用度, 同 时迭代策略能够收敛到 近似纳什均衡策略。 权利要求书2页 说明书4页 附图2页 CN 115456181 A 2022.12.09 CN 115456181 A 1.一种基于P PO‑CFR算法的非完全信息博 弈策略优化方法, 其特 征在于, 包括: 步骤S1: 运行表格式CFR算法, 记录与迭代次数t相关的最小可利用度 其中, 所述表 格式CFR算法包括: 普通CFR、 线性CFR、 CFR+、 折扣CFR和指数CFR; 步骤S2: 初始化经验池D, 初始化PPO算法中行动者Actor和目标行动者TargetActor的 网络参数, 以及评论家Critic和目标评论家TargetCritic的网络参数; 步骤S3: 在第t次迭代中, 以随机状态st、 博弈策略σt开始博弈; 步骤S4: PPO算 法中的Actor网络在该状态st下经过归 一化后得到概率值pro, 利用pro类 别分布采样获得动作 并将 作为现有CFR算法中第i个CFR的后悔计算方式; 步骤S5: 执 行动作 用对应的所述后悔 计算方式计算非完全信息博 弈的信息集中每 个 动作的后悔值, 并将其作为下一次迭代状态st+1, 然后用所述后悔计算方式 更新下一次迭 代t+1的策略σt+1, 其中信息集是非完全信息博 弈中无法区分的状态集 合; 步骤S6: 获得 该轮博弈中的可利用度Et, 同时利用奖励函数计算奖励值 步骤S7: 在经验 池D中存储样本 步骤S8: 从所述经验池D随机采样N个样本 通过最小化Actor网络 和Critic网络所对应的损失函数来更新 其对应的网络参数θu和 θq; 步骤S9: 每隔M步令θ'u=θu, θ'p=θp; 步骤S10: 当t<T时, 重复步骤S3~S9, 其中, T为预设的迭代次数; 否则, 获得平均策略 2.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S6中奖励值 的计算公式(1)如下 所示: 其中, Et是当前策略在第t次迭代中的实际可利用度, 是在第t次迭代中最小可利用 度。 3.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S8中Actor 网络和Critic网络所对应的损失函数J( θ )的计算公式(2)~(4)如 下所示: 其中, 公式(2)中c1,c2是两个超参数; 表示状态值估计, Gt表示目标评价网络获得 的状态值, H( πθ(·)|st)表示熵奖励; 公式(3)中 表示估计的优势函数, r( θ )是重要性采样权重, 函数clip(r( θ ),1 ‑∈,1权 利 要 求 书 1/2 页 2 CN 115456181 A 2+∈)将r( θ )的值限制在[1 ‑∈,1+∈], ∈为截断因子 。 4.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在 于, 所述步骤S10中获得平均策略 具体包括: 当t=T时, 迭代结束, 此时所述平均策略 将会成为 的纳什均衡策略; 其中, I为所述信息集, A为非完全信息博 弈中的可选动作集。权 利 要 求 书 2/2 页 3 CN 115456181 A 3
专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 13:00:08
上传分享
举报
下载
原文档
(719.2 KB)
分享
友情链接
OWASP SAMM中文Alpha版.pdf
GM-T 0019-2023 通用密码服务接口规范.pdf
CNCERT 2020年上半年我国互联网网络安全监测数据分析报告.pdf
GB-T 34944-2017 Java语言源代码漏洞测试规范.pdf
GB-T 22163-2008 腧穴定位图.pdf
GB-T 37565-2019 给水排水用格栅除污机通用技术条件.pdf
T-ZMDS 10011—2021 近红外脑组织血氧监测仪参数测试方法.pdf
GM-T 0058-2018 可信计算 TCM服务模块接口规范.pdf
GB-T 1457-2022 夹层结构滚筒剥离强度试验方法.pdf
GB-T 40147-2021 科技评估通则.pdf
思度安全-DSMM-003人员安全管理规范V1.0.pdf
GB-T 32351-2015 电力信息安全水平评价指标.pdf
NY-T 3223-2018 日光温室设计规范.pdf
GB-T 24162-2022 汽车用压缩天然气金属内胆纤维环缠绕气瓶定期检验与评定.pdf
中国电子学会 2021年中国信创产业发展白皮书.pdf
T-CSTM 00577—2021 油气田设备和材料绿色制造通用要求.pdf
GB-T 28858-2012 电子元器件用酚醛包封料.pdf
GB-T 28827.4-2019 信息技术服务 运行维护 第4部分:数据中心服务要求.pdf
GB-T 39511-2020 保健调理按摩技术操作规范.pdf
GB-T 19472.2-2017 埋地用聚乙烯 PE 结构壁管道系统 第2部分:聚乙烯缠绕结构壁管材.pdf
1
/
3
9
评价文档
赞助3元 点击下载(719.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。