(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210206062.2
(22)申请日 2022.02.28
(71)申请人 中国科学院软件研究所
地址 100190 北京市海淀区中关村南四街 4
号
(72)发明人 吴富章 孔彦 沈思成 武延军
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 司立彬
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/958(2019.01)
G06F 16/55(2019.01)
G06F 16/583(2019.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种融合图像内容和特征提取的拍照姿势
推荐方法
(57)摘要
本发明公开了一种融合图像内容和几何特
征提取的拍照姿势推荐方法, 其步骤包括: 从用
户输入的图像中提取场景语义特征、 场景特征、
视角特征; 将所提取的场景语义特征、 场景特征、
视角特征按照设定规则进行融合; 计算融合所得
特征与特征数据库中的特征的相似性, 将相似性
最高的m个特征对应的姿势图片返回给用户。 本
发明能满足不同体型、 肤 色、 性别、 年龄用户的姿
势偏好, 在特征提取步骤中引入场景类别信息、
纹理信息和视角信息可以更准确的检索到姿势
图片库中场景相似的姿势照片, 引入语义信息和
强标签系统可以更加智能的识别画面中用户可
以与之交互拍照的物体, 可以满足用户对于姿势
推荐的即时性需求。
权利要求书2页 说明书6页 附图2页
CN 114707055 A
2022.07.05
CN 114707055 A
1.一种融合图像内容和几何特 征提取的拍照姿势推荐方法, 其 步骤包括:
从用户输入的图像中提取场景语义特 征、 场景特征、 视角特 征;
将所提取的场景语义特 征、 场景特征、 视角特 征按照设定规则进行融合;
计算融合所得特征与特征数据库中的特征的相似性, 将相似性最高的m个特征对应的
姿势图片返回给用户。
2.根据权利要求1所述的方法, 其特征在于, 提取所述场景语义特征的方法为: 将输入
图像按原图面积的
划分为图像左子图、 右子图、 上子图和下子图; 采用语义分割模型提取
每一张子图的二 维特征图G, 将每一二维特征图G压缩为一个一 维向量作为对应子图的场景
语义信息, 记为fs_left,fs_right,fs_up,fs_down; 然后将各子图的场景语义信息进行加权拼接得
到所述场景语义特 征fs。
3.根据权利要求2所述的方法, 其特征在于, 当用户点击所述图像中的一个目标作为重
点关注的场景或希望与之进行交互的物品, 则将用户所点击 坐标(px,py)将作为所述语义分
割模型的输入, 将输出的二维特 征图G中对应的二维坐标
对应的类别P作为强标签。
4.根据权利要求3所述的方法, 其特征在于, 利用余 弦距离公式计算融合所得特征finput
与特征库中每一个特征
之间的相似性similarit y; 将姿势图片 数据库中图片类别为P的
置信度大于设定 阈值, 且图片的特征与融合所得特征finput相似性最高的m个姿势图片返回
给用户。
5.根据权利要求1所述的方法, 其特征在于, 采用残差网络提取所述视角特征、 所述场
景特征; 其中, 所述残差网络模 型采用ResNet ‑50模型作为基础网络结构, 所述ResNet ‑50模
型的最后一个卷积模块分别连接用于场景特征提取 的第一平均池化层、 第二平均池化层,
以及分别连接第三平均池化层、 第四平均池化层; 第三平均池化层与第一全连接层连接, 用
于输出场景类别, 第四平均池化层与第二全连接层连接, 用于输出视角类别; 训练所述残差
网络的方法为: 首先收集不同场景的图片数据集, 然后对于图片数据集中每一图片, 检测该
图片中的消失点V(vx,vy), 并通过
对该图片进行视
角分类, 根据 该图片的视觉分类结果View标注该图片的场景类别, 其中Linput为该图片的长
度、 Winput为该图片的宽度; 然后利用根据标注结果所得包含N张图片的训练数据集X=[x1,
x2,x3,…,xN]及对应的场景类别标签和视角类别标签, 训练所述残差网络, 训练所述残差网
络时所采用的损失函数包括
其中, Viewi表示第i张图片标注的视角类别标签, yi表
示第i张图片标注的场景类别标签, fview(xi)为以第i张照片xi为输入时所述模型输出的视
角类别, fscene(xi)为以第i张照片xi为输入时所述模型输出的场景类别。
6.根据权利要求5所述的方法, 其特征在于, 将训练后的所述ResNet ‑50模型的最后一权 利 要 求 书 1/2 页
2
CN 114707055 A
2个卷积模块输出作为场景特征fc_1×1; 以及将训练后的所述ResNet ‑50模型的最后一个卷积
模块中的平均池化层的尺寸参数改为2 ×2, 并将该卷积模块输出的特征图fc_2×2压缩为一
维向量fc_2×2; 然后将场景 特征fc_1×1、 一维向量fc_2×2作为所述场景 特征。
7.根据权利要求1所述的方法, 其特征在于, 将所述场景语义特征、 场景特征、 视角特征
分别进行L2范数归一化后进行加权融合, 得到融合后的特 征。
8.根据权利要求1所述的方法, 其特征在于, 将姿势图片数据库D中的每张照片进行特
征提取, 并将所提取的场景语义特征、 场景特征、 视角特征按照设定规则进行融合, 得到对
应的特征库Df。
9.一种服务器, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所述
计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求1至8任一
所述方法中各步骤的指令 。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114707055 A
3
专利 一种融合图像内容和特征提取的拍照姿势推荐方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:19:18上传分享