专利 基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211120985.2 (22)申请日 2022.09.15 (66)本国优先权数据 202210309611.9 2022.03.28 CN (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人曾荣飞　安树阳　曾超　韩波　苏迈　王家齐　 (74)专利代理机构北京科领智诚知识产权代理事务所(普通合伙) 11782 专利代理师陈士骞 (51)Int.Cl. G06Q 30/08(2012.01) G06N 20/00(2019.01) (54)发明名称基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置 (57)摘要本发明公开一种基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置，方法包括：获取联邦学习平台发布的学习任务，样本客户端利用强化学习算法向联邦平台上传竞标信息，平台通过算法选取样本客户端后下向被选中的样本客户端下发全局共享模型，被选中的样本客户端进行本地训练并上传更新参数，平台将上传的更新模型参数按照聚合算法进行聚合并对全局模型中的模型参数进行更新。以完成联邦学习平台发布的学习任务，此方法在实现联邦学习参与用户的动态竞价的同时缓解了模型的过拟合，解决了现有基于拍卖的激励机制由于用户提交竞价策略后，用户竞价策略在后续训练过程中不会发生改变而导致联邦学习公平性缺失以及模型过拟合的问题。权利要求书3页说明书12页附图2页 CN 115358831 A 2022.11.18 CN 115358831 A 1.一种基于多智能体强化学习算法在联邦学习下的用户竞价方法，其特征在于，所述方法包括：获取联邦学习平台发布的学习任务，基于所述学习任务以及参与联邦学习的客户端集合所上传的竞标信息从所述客户端集合中选取样本客户端，并向样本客户端下发全局共享模型；接收每个样本客户端上传的更新模型参数，所述更新模型参数为样本客户端在训练开始之前使用多智能体强化学习算法输出样本客户端在当前轮次的待提交竞标信息，被选中后按照所述待提交竞标信息中的配置训练全局共享模型所形成的；对各个样本客户端上传的更新模型参数进行聚合，使用聚合后的更新模型参数对所述全局共享模型中的模型参数进行更新；若更新后的全局共享模型在测试任务中达到预设模型精度，则判定完成联邦学习平台发布的学习任务，否则，重复执行多个轮次对全局共享模型中模型参数进行更新的步骤，以使得更新后的全局共享模型在测试任务中达到预设模型精度。 2.如权利要求1所述的方法，其特征在于，所述样本客户端使用多智能体强化学习算法输出样本客户端在当前轮次的待提交竞标信息的过程，包括：以所述样本客户端作为智能体，所述智能体观察在联邦学习环境中自身的历史状态信息，并利用所述历史状态信息输出所述样本客户端在当前轮次的待提交竞标信息。 3.如权利要求2所述的方法，其特征在于，所述多智能体强化学习算法包括策略器和经验池，所述以所述样本客户端作为智能体，所述智能体观察在联邦学习环境中自身的历史状态信息，并利用所述历史状态信息输出所述样本客户端在当前轮次的待提交竞标信息，包括：以所述样本客户端作为智能体，使用所述多智能体强化学习算法中经验池来存储联邦学习环境中各个智能体观察到的历史任务状态信息，所述历史任务状态信息至少包括智能体在历史轮次中是否被选中、历史资源值、历史提供数据量以及历史单位资源量；通过将所述智能体在所述联邦学习环境中观察到的历史任务状态信息作为智能体在当前轮次的状态信息输入至所述多智能体强化学习算法中策略器，输出智能体在当前轮次的待提交竞标信息。 4.如权利要求3所述的方法，其特征在于，在所述通过将所述智能体在所述联邦学习环境中观察到的历史任务状态信息作为智能体在当前轮次的状态信息输入至所述多智能体强化学习算法中策略器，输出智能体在当前轮次的待提交竞标信息之后，所述方法还包括：计算联邦学习环境针对智能体在当前轮次反馈的收益资源，并使用所述多智能体强化学习算法中经验池存储智能体在当前轮次观察到环境的历史状态、待提交竞标信息、待提交竞标信息上传后的环境状态以及联邦学习环境针对当前轮次上传的待提交竞标信息反馈给智能体的收益资源。 5.如权利要求4所述的方法，其特征在于，所述计算联邦学习环境针对智能体在当前轮次反馈的收益资源，包括：基于智能体在当前轮次上的待上传竞标信息，分别获取智能体在竞标过程中涉及的资源参数；将所述智能体在竞标过程中涉及的资源参数输入至预先构建的收益函数，得到联邦学权　利　要　求　书 1/3 页 2 CN 115358831 A 2习环境针对智能体在当前轮次反馈的收益资源。 6.如权利要求3所述的方法，其特征在于，每个样本客户端配置有一个策略器，所述策略器包括动作网络和价值网络，所述通过将所述联邦学习环境中观察到的历史任务状态信息作为智能体在当前轮次的状态信息输入至所述多智能体强化学习算法中策略器，输出智能体在当前轮次的待提交竞标信息，包括：通过将所述智能体在所述联邦学习环境中观察到的历史任务状态信息作为智能体在当前轮次的状态信息输入至所述策略器中动作网络，输出智能体在当前轮次的待提交竞标信息，得到智能体在当前训练轮次的待上传竞标信息；通过将所述智能体在当前轮次的状态信息以及智能体在当前轮次的待上传竞标信息输入至所述策略器中价值网络，对所述待上传竞标信息进行评估，得到待上传竞标信息的评估分数；其中，所述动作网络利用所述待上传竞标信息的评估分数进行训练，所述动作网络的网络参数通过梯度上升来更新，所述价值网络利用所述待上传竞标信息的评估分数以及智能体实际反馈的收益资源进行训练，所述价值网络的网络参数通过时序差分法来更新。 7.如权利要求1 ‑6中任一项所述的方法，其特征在于，所述对各个样本客户端上传的更新模型参数进行聚合，使用聚合后的更新模型参数对所述全局共享模型中的模型参数进行更新，包括：分别计算各个样本客户端的数据量与所有样本客户端的数据量的比值，得到每个样本客户端对应的数据量占比；将每个样本客户端对应的数据量占比乘以相应样本客户端上传的更新模型参数后，聚合所有样本客户端对应的更新模型参数，通过累加聚合后更新模型参数对全局共享模型中的模型参数进行更新。 8.一种基于多智能体强化学习算法在联邦学习下的用户竞价装置，其特征在于，所述装置包括：获取单元，用于获取联邦学习平台发布的学习任务，基于所述学习任务以及参与联邦学习的客户端集合所上传的竞标信息从所述客户端集合中选取样本客户端，并向样本客户端下发全局共享模型；接收单元，用于接收每个样本客户端上传的更新模型参数，所述更新模型参数为样本客户端使用多智能体强化学习算法输出样本客户端在当前轮次的待提交竞标信息训练全局共享模型所形成；聚合单元，用于对各个样本客户端上传的更新模型参数进行聚合，使用聚合后的更新模型参数对所述全局共享模型中的模型参数进行更新；选取单元，用于若更新后的全局共享模型在测试任务中达到预设模型精度，则判定完成联邦学习平台发布的学习任务，否则，重复执行多个轮次对全局共享模型中模型参数进行更新的步骤，以使得更新后的全局共享模型在测试任务中达到预设模型精度。 9.一种存储介质，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器实现所述基于多智能体强化学习算法在联邦学习下的用户竞价的方法。 10.一种基于多智能体强化学习算法在联邦学习下的用户竞价的设备，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 115358831 A 3

专利 基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置

专利基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置