专利 一种融合图像内容和特征提取的拍照姿势推荐方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210206062.2 (22)申请日 2022.02.28 (71)申请人中国科学院软件研究所地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人吴富章　孔彦　沈思成　武延军　 (74)专利代理机构北京君尚知识产权代理有限公司 11200 专利代理师司立彬 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/958(2019.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称一种融合图像内容和特征提取的拍照姿势推荐方法 (57)摘要本发明公开了一种融合图像内容和几何特征提取的拍照姿势推荐方法，其步骤包括：从用户输入的图像中提取场景语义特征、场景特征、视角特征；将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合；计算融合所得特征与特征数据库中的特征的相似性，将相似性最高的m个特征对应的姿势图片返回给用户。本发明能满足不同体型、肤色、性别、年龄用户的姿势偏好，在特征提取步骤中引入场景类别信息、纹理信息和视角信息可以更准确的检索到姿势图片库中场景相似的姿势照片，引入语义信息和强标签系统可以更加智能的识别画面中用户可以与之交互拍照的物体，可以满足用户对于姿势推荐的即时性需求。权利要求书2页说明书6页附图2页 CN 114707055 A 2022.07.05 CN 114707055 A 1.一种融合图像内容和几何特征提取的拍照姿势推荐方法，其步骤包括：从用户输入的图像中提取场景语义特征、场景特征、视角特征；将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合；计算融合所得特征与特征数据库中的特征的相似性，将相似性最高的m个特征对应的姿势图片返回给用户。 2.根据权利要求1所述的方法，其特征在于，提取所述场景语义特征的方法为：将输入图像按原图面积的划分为图像左子图、右子图、上子图和下子图；采用语义分割模型提取每一张子图的二维特征图G，将每一二维特征图G压缩为一个一维向量作为对应子图的场景语义信息，记为fs_left,fs_right,fs_up,fs_down；然后将各子图的场景语义信息进行加权拼接得到所述场景语义特征fs。 3.根据权利要求2所述的方法，其特征在于，当用户点击所述图像中的一个目标作为重点关注的场景或希望与之进行交互的物品，则将用户所点击坐标(px,py)将作为所述语义分割模型的输入，将输出的二维特征图G中对应的二维坐标对应的类别P作为强标签。 4.根据权利要求3所述的方法，其特征在于，利用余弦距离公式计算融合所得特征finput 与特征库中每一个特征之间的相似性similarit y；将姿势图片数据库中图片类别为P的置信度大于设定阈值，且图片的特征与融合所得特征finput相似性最高的m个姿势图片返回给用户。 5.根据权利要求1所述的方法，其特征在于，采用残差网络提取所述视角特征、所述场景特征；其中，所述残差网络模型采用ResNet ‑50模型作为基础网络结构，所述ResNet ‑50模型的最后一个卷积模块分别连接用于场景特征提取的第一平均池化层、第二平均池化层，以及分别连接第三平均池化层、第四平均池化层；第三平均池化层与第一全连接层连接，用于输出场景类别，第四平均池化层与第二全连接层连接，用于输出视角类别；训练所述残差网络的方法为：首先收集不同场景的图片数据集，然后对于图片数据集中每一图片，检测该图片中的消失点V(vx,vy)，并通过对该图片进行视角分类，根据该图片的视觉分类结果View标注该图片的场景类别，其中Linput为该图片的长度、 Winput为该图片的宽度；然后利用根据标注结果所得包含N张图片的训练数据集X＝[x1, x2,x3,…,xN]及对应的场景类别标签和视角类别标签，训练所述残差网络，训练所述残差网络时所采用的损失函数包括其中， Viewi表示第i张图片标注的视角类别标签， yi表示第i张图片标注的场景类别标签， fview(xi)为以第i张照片xi为输入时所述模型输出的视角类别， fscene(xi)为以第i张照片xi为输入时所述模型输出的场景类别。 6.根据权利要求5所述的方法，其特征在于，将训练后的所述ResNet ‑50模型的最后一权　利　要　求　书 1/2 页 2 CN 114707055 A 2个卷积模块输出作为场景特征fc_1×1；以及将训练后的所述ResNet ‑50模型的最后一个卷积模块中的平均池化层的尺寸参数改为2 ×2，并将该卷积模块输出的特征图fc_2×2压缩为一维向量fc_2×2；然后将场景特征fc_1×1、一维向量fc_2×2作为所述场景特征。 7.根据权利要求1所述的方法，其特征在于，将所述场景语义特征、场景特征、视角特征分别进行L2范数归一化后进行加权融合，得到融合后的特征。 8.根据权利要求1所述的方法，其特征在于，将姿势图片数据库D中的每张照片进行特征提取，并将所提取的场景语义特征、场景特征、视角特征按照设定规则进行融合，得到对应的特征库Df。 9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114707055 A 3

专利 一种融合图像内容和特征提取的拍照姿势推荐方法

专利一种融合图像内容和特征提取的拍照姿势推荐方法