专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210999505.8 (22)申请日 2022.08.19 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人朱进　黄蕾　 (74)专利代理机构北京科迪生专利代理有限责任公司 1 1251 专利代理师金怡 (51)Int.Cl. G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于PPO-CF R算法的非完全信息博弈策略优化方法 (57)摘要本发明涉及提供一种基于PPO ‑CFR算法的非完全信息博弈策略优化方法，设计一个PPO智能体，将现存CF R变体中的后悔更新方式作为PPO智能体可以选择的动作，并利用迭代博弈策略的可利用度构造智能体的奖励值，从而使得PPO智能体能够在每一时间步中选择最合适的后悔更新方法，以提高CF R算法的泛化性能，并达成非完全信息博弈的策略优化，从而解决了现有CFR及其变体算法在非完全信息博弈下表现各有优劣、泛化性能薄弱的问题，可以在卡牌等非完全信息博弈中获得良好的泛化性能和较低的可利用度，同时迭代策略能够收敛到近似纳什均衡策略。权利要求书2页说明书4页附图2页 CN 115456181 A 2022.12.09 CN 115456181 A 1.一种基于P PO‑CFR算法的非完全信息博弈策略优化方法，其特征在于，包括：步骤S1：运行表格式CFR算法，记录与迭代次数t相关的最小可利用度其中，所述表格式CFR算法包括：普通CFR、线性CFR、 CFR+、折扣CFR和指数CFR；步骤S2：初始化经验池D，初始化PPO算法中行动者Actor和目标行动者TargetActor的网络参数，以及评论家Critic和目标评论家TargetCritic的网络参数；步骤S3：在第t次迭代中，以随机状态st、博弈策略σt开始博弈；步骤S4： PPO算法中的Actor网络在该状态st下经过归一化后得到概率值pro，利用pro类别分布采样获得动作并将作为现有CFR算法中第i个CFR的后悔计算方式；步骤S5：执行动作用对应的所述后悔计算方式计算非完全信息博弈的信息集中每个动作的后悔值，并将其作为下一次迭代状态st+1，然后用所述后悔计算方式更新下一次迭代t+1的策略σt+1，其中信息集是非完全信息博弈中无法区分的状态集合；步骤S6：获得该轮博弈中的可利用度Et，同时利用奖励函数计算奖励值步骤S7：在经验池D中存储样本步骤S8：从所述经验池D随机采样N个样本通过最小化Actor网络和Critic网络所对应的损失函数来更新其对应的网络参数θu和 θq；步骤S9：每隔M步令θ'u＝θu， θ'p＝θp；步骤S10：当t<T时，重复步骤S3～S9，其中， T为预设的迭代次数；否则，获得平均策略 2.根据权利要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法，其特征在于，所述步骤S6中奖励值的计算公式(1)如下所示：其中， Et是当前策略在第t次迭代中的实际可利用度，是在第t次迭代中最小可利用度。 3.根据权利要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法，其特征在于，所述步骤S8中Actor 网络和Critic网络所对应的损失函数J( θ )的计算公式(2)～(4)如下所示：其中，公式(2)中c1,c2是两个超参数；表示状态值估计， Gt表示目标评价网络获得的状态值， H( πθ(·)|st)表示熵奖励；公式(3)中表示估计的优势函数， r( θ )是重要性采样权重，函数clip(r( θ ),1 ‑∈,1权　利　要　求　书 1/2 页 2 CN 115456181 A 2+∈)将r( θ )的值限制在[1 ‑∈,1+∈]， ∈为截断因子。 4.根据权利要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法，其特征在于，所述步骤S10中获得平均策略具体包括：当t＝T时，迭代结束，此时所述平均策略将会成为的纳什均衡策略；其中， I为所述信息集， A为非完全信息博弈中的可选动作集。权　利　要　求　书 2/2 页 3 CN 115456181 A 3

专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法

专利一种基于PPO-CFR算法的非完全信息博弈策略优化方法