iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210206062.2 (22)申请日 2022.02.28 (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 吴富章 孔彦 沈思成 武延军  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 司立彬 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/958(2019.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种融合图像内容和特征提取的拍照姿势 推荐方法 (57)摘要 本发明公开了一种融合图像内容和几何特 征提取的拍照姿势推荐方法, 其步骤包括: 从用 户输入的图像中提取场景语义特征、 场景特征、 视角特征; 将所提取的场景语义特征、 场景特征、 视角特征按照设定规则进行融合; 计算融合所得 特征与特征数据库中的特征的相似性, 将相似性 最高的m个特征对应的姿势图片返回给用户。 本 发明能满足不同体型、 肤 色、 性别、 年龄用户的姿 势偏好, 在特征提取步骤中引入场景类别信息、 纹理信息和视角信息可以更准确的检索到姿势 图片库中场景相似的姿势照片, 引入语义信息和 强标签系统可以更加智能的识别画面中用户可 以与之交互拍照的物体, 可以满足用户对于姿势 推荐的即时性需求。 权利要求书2页 说明书6页 附图2页 CN 114707055 A 2022.07.05 CN 114707055 A 1.一种融合图像内容和几何特 征提取的拍照姿势推荐方法, 其 步骤包括: 从用户输入的图像中提取场景语义特 征、 场景特征、 视角特 征; 将所提取的场景语义特 征、 场景特征、 视角特 征按照设定规则进行融合; 计算融合所得特征与特征数据库中的特征的相似性, 将相似性最高的m个特征对应的 姿势图片返回给用户。 2.根据权利要求1所述的方法, 其特征在于, 提取所述场景语义特征的方法为: 将输入 图像按原图面积的 划分为图像左子图、 右子图、 上子图和下子图; 采用语义分割模型提取 每一张子图的二 维特征图G, 将每一二维特征图G压缩为一个一 维向量作为对应子图的场景 语义信息, 记为fs_left,fs_right,fs_up,fs_down; 然后将各子图的场景语义信息进行加权拼接得 到所述场景语义特 征fs。 3.根据权利要求2所述的方法, 其特征在于, 当用户点击所述图像中的一个目标作为重 点关注的场景或希望与之进行交互的物品, 则将用户所点击 坐标(px,py)将作为所述语义分 割模型的输入, 将输出的二维特 征图G中对应的二维坐标 对应的类别P作为强标签。 4.根据权利要求3所述的方法, 其特征在于, 利用余 弦距离公式计算融合所得特征finput 与特征库中每一个特征 之间的相似性similarit y; 将姿势图片 数据库中图片类别为P的 置信度大于设定 阈值, 且图片的特征与融合所得特征finput相似性最高的m个姿势图片返回 给用户。 5.根据权利要求1所述的方法, 其特征在于, 采用残差网络提取所述视角特征、 所述场 景特征; 其中, 所述残差网络模 型采用ResNet ‑50模型作为基础网络结构, 所述ResNet ‑50模 型的最后一个卷积模块分别连接用于场景特征提取 的第一平均池化层、 第二平均池化层, 以及分别连接第三平均池化层、 第四平均池化层; 第三平均池化层与第一全连接层连接, 用 于输出场景类别, 第四平均池化层与第二全连接层连接, 用于输出视角类别; 训练所述残差 网络的方法为: 首先收集不同场景的图片数据集, 然后对于图片数据集中每一图片, 检测该 图片中的消失点V(vx,vy), 并通过 对该图片进行视 角分类, 根据 该图片的视觉分类结果View标注该图片的场景类别, 其中Linput为该图片的长 度、 Winput为该图片的宽度; 然后利用根据标注结果所得包含N张图片的训练数据集X=[x1, x2,x3,…,xN]及对应的场景类别标签和视角类别标签, 训练所述残差网络, 训练所述残差网 络时所采用的损失函数包括 其中, Viewi表示第i张图片标注的视角类别标签, yi表 示第i张图片标注的场景类别标签, fview(xi)为以第i张照片xi为输入时所述模型输出的视 角类别, fscene(xi)为以第i张照片xi为输入时所述模型输出的场景类别。 6.根据权利要求5所述的方法, 其特征在于, 将训练后的所述ResNet ‑50模型的最后一权 利 要 求 书 1/2 页 2 CN 114707055 A 2个卷积模块输出作为场景特征fc_1×1; 以及将训练后的所述ResNet ‑50模型的最后一个卷积 模块中的平均池化层的尺寸参数改为2 ×2, 并将该卷积模块输出的特征图fc_2×2压缩为一 维向量fc_2×2; 然后将场景 特征fc_1×1、 一维向量fc_2×2作为所述场景 特征。 7.根据权利要求1所述的方法, 其特征在于, 将所述场景语义特征、 场景特征、 视角特征 分别进行L2范数归一化后进行加权融合, 得到融合后的特 征。 8.根据权利要求1所述的方法, 其特征在于, 将姿势图片数据库D中的每张照片进行特 征提取, 并将所提取的场景语义特征、 场景特征、 视角特征按照设定规则进行融合, 得到对 应的特征库Df。 9.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述 计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至8任一 所述方法中各步骤的指令 。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114707055 A 3

.PDF文档 专利 一种融合图像内容和特征提取的拍照姿势推荐方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合图像内容和特征提取的拍照姿势推荐方法 第 1 页 专利 一种融合图像内容和特征提取的拍照姿势推荐方法 第 2 页 专利 一种融合图像内容和特征提取的拍照姿势推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:19:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。