iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211004818.1 (22)申请日 2022.08.22 (71)申请人 安徽大学 地址 230039 安徽省合肥市蜀山区九龙路 111号 (72)发明人 茅笑骋 胡世杰 段靖怡 郭文斌 王旭 吴祖恒 (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 专利代理师 何静 (51)Int.Cl. G06N 20/00(2019.01) G06F 17/16(2006.01) (54)发明名称 一种基于忆阻器的强化学习硬件加速方法 (57)摘要 本发明公开了一种基于忆阻器的强化学习 硬件加速方法, 涉及忆阻器技术领域, 首先按批 次, 即每个bat ch生成32条回合路径, 推理映射到 TiO2忆阻器阵列形成策略图谱, 将策略图谱信息 按列导入32 ×32忆阻器阵列, 利用阵列并行的矩 阵乘加运算得到每一列对应回合的价值, 经过 WTA电路进行比较, 输出32个路径中最大的回合 价值, 最后与之前batch得到的最大价值进行比 较, 保留最大的那个价值, 反复迭代直到收敛, 此 方法能够使用忆阻器阵列乘加的方式将强化学 习算法迭代过程硬件化, 能够减少强化学习任务 的迭代次数, 减少计算机吞吐量。 权利要求书2页 说明书4页 附图2页 CN 115456193 A 2022.12.09 CN 115456193 A 1.一种基于忆阻器的强化学习硬件加速方法, 其特 征在于, 方法包括以下步骤: 获取32条回合路径, 并输出带有动作信息的回合路径, 推理映射到忆阻器阵列形成策 略图谱, 按列输入32 ×32大小的忆阻器 硬件阵列; 将生成的策略图谱中的每个动作对应的奖励值作为读电压输入忆阻器硬件阵列, 按阵 列得到对应的回合价值, 将每一列回合价值经过WTA赢者通吃电路进 行比较, 输出32个回合 中最大的回合 价值; 将比较得到的最大的回合价值与之前得到的最大的回合价值进行比较, 保留更大的回 合价值, 反复迭代直到收敛, 利用并行计算 来减少迭代次数。 2.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 所述 忆阻器形成的策 略图谱是利用忆阻器的物理衰减函数来自然的代替算法Sarsa( λ )中的需 要进行大量指数衰减运 算的衰减因子 λ。 3.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 所述 回合路径包 含状态动作对的信息 。 4.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 所述 忆阻器阵列利用不同的电导 值来代表不同的状态动作。 5.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 所述 忆阻器硬件阵列的读电压用来代表每个状态动作对的奖励信息, 按照算法价值更新公式, 按列输出的电流 值即为回合 价值。 6.根据权利要求5所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 利用 忆阻器阵列并行计算的功能, 同时进行32列运算, 输出32个价值, 然后使用WTA赢者通吃电 路进行比较, 输出最大的回合 价值。 7.根据权利要求5所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 所述 算法价值更新公式为: 其中, t代表每个回合有t步, a为第k步的动作信息, 在忆阻器阵列中表示为电导值, R为 对应步的奖励值, 通过忆阻器本身具有的矩阵成家运算进行价值的求解, 将忆阻器读电压 设置为Rt‑k+1, 阵列上的电导值为ak, 将每一个回合的所有动作信息按列输入阵列, 然后按行 输入读电压, 根据阵列 的乘加定律和基尔霍夫电流定律读出每一列 的电流和即为回合价 值。 8.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法, 其特征在于, 根据 Sarsa( λ )算法的每个batch生成32个回合的路径, 通过打印每个回合中包含上下左右四个 动作的动作信息, 将四个不同的动作对应忆阻器的四个电导态, 然后映射到TiO2忆阻器阵 列中形成特 征图谱。 9.一种设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实权 利 要 求 书 1/2 页 2 CN 115456193 A 2现如权利要求1 ‑8中任一所述的一种基于忆阻器的强化学习硬件加速方法。 10.一种包含获取机可执行指令的存储介质, 其特征在于, 所述获取机可执行指令在由 获取机处理器执行时用于执行如权利要求 1‑8中任一所述的一种基于忆阻器的强化学习硬 件加速方法。权 利 要 求 书 2/2 页 3 CN 115456193 A 3
专利 一种基于忆阻器的强化学习硬件加速方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 13:00:29
上传分享
举报
下载
原文档
(537.2 KB)
分享
友情链接
T-GZBC 16.1—2019 医疗数据中心建设规范 第1部分 临床数据中心.pdf
GB-T 22739-2008 地理标志产品 建莲.pdf
GB-T 20566-2006 钢及合金术语.pdf
GB-T 22048-2022 玩具及儿童用品中特定邻苯二甲酸酯增塑剂的测定.pdf
GB-T 38750.1-2020 往复式内燃机能效评定规范 第1部分:柴油机.pdf
DB52-T1239.5-2019 政府数据 核心元数据 第5部分:宏观经济数据 贵州省.pdf
专利 基于有限元仿真的SiP芯片封装分层寿命预测方法.PDF
DB32-T 4640-2024 燃气工业锅炉节能监测规范 江苏省.pdf
GB-T 13923-2022 基础地理信息要素分类与代码.pdf
GB-T 25066-2020 信息安全技术 信息安全产品类别与代码.pdf
GB-T 20502-2006 膜组件及装置型号命名.pdf
GB-Z 25425-2010 风力发电机组 公称视在声功率级和音值.pdf
ISO-IEC 27007 英文版 2022.pdf
国家网络安全事件应急预案.pdf
NY-T 2454-2019 机动植保机械报废技术条件.pdf
GB-T 23799-2021 车用甲醇汽油 M85.pdf
GB-T 38530-2020 城镇液化天然气 LNG 气化供气装置.pdf
GB-T 26607-2011 工业用邻苯基苯酚.pdf
GM-T 0028-2014 密码模块安全技术要求.pdf
DB50-T 1375-2023 食品集中配送服务规范 重庆市.pdf
1
/
3
9
评价文档
赞助3元 点击下载(537.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。