(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211042072.3
(22)申请日 2022.08.29
(71)申请人 桂林电子科技大 学
地址 541004 广西壮 族自治区桂林市七 星
区金鸡路1号
(72)发明人 陈俊彦 王勇 黄雪锋 廖岑卉珊
谢小兰 李欣梅 肖微
(74)专利代理 机构 桂林文必达专利代理事务所
(特殊普通 合伙) 45134
专利代理师 张学平
(51)Int.Cl.
H04L 47/125(2022.01)
H04L 47/12(2022.01)
H04L 45/02(2022.01)
H04L 45/655(2022.01)H04L 45/76(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于近端策略优化算法优化网络流量
调度方法
(57)摘要
本发明涉及深度学习技术领域, 具体涉及一
种基于近端策略优化算法优化网络流量调度方
法, 针对软件定义网络的数据平 面具有时间特征
和空间特征, 为了全局地考虑网络的时空相关
性, 提出了使用门控循环单元和图注 意力网络方
法提取状态信息中的时序相关性和空间相关性,
为深度强化学习的决策提供包含更多环境的隐
含信息, 从而解决网络流量工程问题, 充分利用
网络资源动态调整网络负载, 有效缓解网络链路
拥塞, 进而优化网络性能。
权利要求书1页 说明书7页 附图2页
CN 115550268 A
2022.12.30
CN 115550268 A
1.一种基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于, 包括下列步骤:
构建ASTP PO系统架构;
采集网络链路信息和网络 拓扑信息;
分别生成状态信息和奖励值;
以所述状态信息和所述奖励值 为输入, 获得动作值并转发;
基于所述动作值 生成SDN流表, 下发所述S DN流表进行流 量调度。
2.如权利要求1所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
所述ASTPPO系 统架构包括数据交换层、 控制层和智能决策层, 所述数据交换层由支持
SDN工作协议的SDN交换机组成, 所述控制层与数据交换层通过南向接口连接, 与智能决策
层通过北向接口连接, 所述智能决策层输出链路权 重用于路由策略更新。
3.如权利要求2所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
在采集网络链路信 息和网络拓扑信 息的过程中, 控制层的信 息收集器每隔一段时间通
过南向接口从数据 交换层的SDN交换机采集网络链路信息, 控制层的拓扑发现器每隔一段
时间通过南向接口从数据交换层的S DN交换机采集网络 拓扑信息 。
4.如权利要求3所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
分别生成状态信息和奖励值的过程, 具体为控制层的信息收集器处理网络链路信息,
生成输入智能决策层中智能体的状态信息, 控制层的奖励函数模块处理信息收集器采集的
网络链路信息, 生成输入智能决策层智能体的奖励值, 状态信息和奖励值均通过北向接口
传输给智能体。
5.如权利要求 4所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
以所述状态信息和所述奖励值为输入, 获得动作值并转发的过程, 具体为所述智能体
接收状态信息和奖励值作为智能体算法的输入, 使用智能体算法生成网络拓扑中的链路权
重作为智能体决策 的动作值, 用于网络流量调度策略优化, 随后通过北向接口将动作值传
输给控制层的流表下发器。
6.如权利要求5所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
所述智能体算法中设计门控循环单元模块、 自注意力 机制模块和图注意力网络模块进
行特征提取, 其中通过门控循环单元模块捕获输入状态的时序相关信息, 并使用自注意力
机制模块计算权 重, 通过图注意力网络模块捕获输入状态的空间相关信息 。
7.如权利要求6所述的基于 近端策略优化 算法优化网络流 量调度方法, 其特 征在于,
在基于所述动作值生成SDN流表, 下发所述SDN流表进行流量调度的过程中, 控制层的
流表下发器接收智能体下发的动作值, 并结合拓扑发现器采集的网络拓扑信息生成SDN流
表, 通过南向接口把S DN流表下发给 数据交换层的S DN交换机 。权 利 要 求 书 1/1 页
2
CN 115550268 A
2一种基于近端策略优化算法优化 网络流量调度方 法
技术领域
[0001]本发明涉及深度学习技术领域, 具体涉及 一种基于近端策略优化算法优化网络流
量调度方法。
背景技术
[0002]近年来, 随着互联 网快速发展, 网络的规模日趋庞大, 社交媒体、 高清影视、 在线游
戏以及5G的普及使得网络流量迅速增长, 传统的转发网络压力日益见长。 为了适应网络规
模的持续增长, 更灵活、 更智能、 流量承 载能力更高的网络架构, 即软件定义网络(Soft ware
DefinedNetworking,SDN)应运而生。 在对于智能化SDN网络的优化目标中, 流量工程
(Traffic Engineering,TE)优化是一个重要领域。 针对各种网络场景的TE优化目标, 存在
大量基于流的路由、 链路状态协议或覆盖网络等等技术的方案。 在相关文献中解决的一个
基本TE问题是域内TE, 即同一个自治域的网络如运营商网络、 数据中心网络或园区网等等,
其中经典的优化目标是最小化自管理网络域内的最大链路负载, 这已经被证实是一个NP ‑
hard问题。
[0003]在过去的几年里, 研究人员将机器学习(Machine Learning,ML)应用于复杂的网
络控制和管理问题, 尤其是深度强化学习(Deep Reinforcement Learning,D RL)技术应用
在网络控制上取得了显著成果。 但现有的DRL应用于SDN的研究还没有关注到SDN网络的特
性, 这使得DRL算法在SDN网络性能优化的表现有所局限。 定制化的深度强化学习模型在特
定的网络场景下表现较优, 但在其他网络环境的场景下 的泛化能力有待验证。 而通过其他
网络如CNN、 RNN或GNN进行优化的DRL算法仅考虑到了网络时序相关性或网络空间相关性,
没有全局地 考虑网络的时空相关性。
发明内容
[0004]本发明的目的在于提供一种基于近端策略优化算法优化网络流量调度方法, 解决
现有强化学习 方法未考虑 网络时序相关性或网络空间相关性, 在SDN网络性能优化效果不
佳的问题。
[0005]为实现上述目的, 本发明提供了一种基于近端策略优化算法优化网络流量调度方
法, 包括下列步骤:
[0006]构建ASTP PO系统架构;
[0007]采集网络链路信息和网络 拓扑信息;
[0008]分别生成状态信息和奖励值;
[0009]以所述状态信息和所述奖励值 为输入, 获得动作值并转发;
[0010]基于所述动作值 生成SDN流表, 下发所述S DN流表进行流 量调度。
[0011]其中, 所述ASTPPO系统架构包括数据交换层、 控制层和智能决策层, 所述数据交换
层由支持SDN工作协议的SDN交换机组成, 所述控制层与数据交换层通过南 向接口连接, 与
智能决策层通过 北向接口连接, 所述智能决策层输出链路权 重用于路由策略更新。说 明 书 1/7 页
3
CN 115550268 A
3
专利 一种基于近端策略优化算法优化网络流量调度方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:01:04上传分享