(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211208107.6
(22)申请日 2022.09.30
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市钱塘新区白杨
街道2号大街1 158号
申请人 杭州瑞成信息技 术有限公司
(72)发明人 吴向阳 金鑫 金征雷
(51)Int.Cl.
G06T 11/60(2006.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
形状约束的语义词云自动生成方法
(57)摘要
本发明公开了一种形状约束的语义词云自
动生成方法。 本发明技术方案 涉及对文本和形状
的处理。 文本处理流程: 从文本中提取单词; 使用
word2vec模型将单词转换为词向量, 计算单词之
间的相似性; 根据相似性构建无向图并使用网络
社区划分算法为单词分组。 形状处理流程: 提取
形状边界点, 构成简单多边形; 计算简单多边形
的中轴线; 在中轴线的基础上, 得到简单多边形
的维诺图, 从而生成形状内部的螺旋线; 根据方
向约束计算向量场。 完成对文本和形状的处理
后, 进行词云布局, 得到形状约束的语义词云。 采
用本技术生成的词云既能满足语义词云中语义
相近的单词在词云布局 中的位置相互靠近的特
点, 满足形状词云中将单词布局在任意形状内部
的特点。
权利要求书2页 说明书6页 附图5页
CN 115546353 A
2022.12.30
CN 115546353 A
1.形状约束的语义词云自动生成方法, 其特 征在于, 包括以下步骤:
步骤一: 解析用户上传的文本, 提取 出文本中的单词并计算单词的频率;
步骤二: 对每个单词进行嵌入, 得到一组词向量, 利用词向量计算每对单词的余弦相似
性;
步骤三: 构造带权无向图, 利用网络社区划分算法得到多个单词分组;
步骤四: 提取用户上传的形状的轮廓 点, 得到一个简单多边形, 计算该简单多边形的中
轴线;
步骤五: 通过简单多边形的中轴线 进一步得到简单多边形的维诺图;
步骤六: 对维诺图中的区域进行分组, 以确定每组单词的摆放 位置;
步骤七: 生成螺 旋线, 根据螺 旋线当前 所在的维诺图区域确定 螺旋线的移动方向;
步骤八: 根据中轴线约束、 中心约束和用户自定义方向约束计算形状内部的向量场;
步骤九: 根据螺旋线、 向量场以及单词区域分组确定每个单词的位置和方向, 在此位置
以此方向进行摆词。
2.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤二
中, 使用Yelp数据集训练一个word2vec模 型, 使用训练好的模 型进行单词嵌入, 再计算每对
单词之间的余弦相似性。
3.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤三
中, 构造一个带权无向图, 每个单词对应着图中的一个节点, 图中边的权重为两个单词之间
的余弦相似性; 利用L ouvain社区发现算法为图节点分组, 得到多个单词分组。
4.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤四
中, 使用R ‑L序列算法快速计算简单多边形的中轴线, 最终得到以一棵二叉树表示的中轴
线;
所述步骤五中, 在中轴线的基础上添加若干边得到简单多边形的维诺图, 进而得到多
个形状区域。
5.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤六
中, 为每个单词分组分配一 块形状区域;
通过:
得到一个最优的区域分配方案;
其中Ai表示当前分配给第i个单词分组的区域面积大小,
为根据第i个单词分组的面
积比例得到的对应区域面积 大小, ω为可调整的权重, σk为每个单词分组所占的第k个狭窄
区域部分的数量的方差 。
6.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤七
中, 通过公式
逐步生成形状内部的螺 旋线;
其中dx和dy分别为螺旋线当前移动的x和y轴的步长; r为螺旋线当前位置距离螺旋线
起始点的距离; a和dθ为用户指定的参数, 可以控制螺旋线移动步长和两条相邻曲线的距
离; N和T分别为螺 旋线当前位置的法向和 切向向量;
T可以通过螺 旋线当前位置所在的区域获得;
如果当前 所在的区域关联着简单多边形的边, 则T为平行于该边的方向;
如果当前所在的区域关联着简单多边形的凹点, 则T为垂直于当前位置与凹点连线的权 利 要 求 书 1/2 页
2
CN 115546353 A
2方向。
7.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤七
中, 生成多中心的螺 旋线:
生成形状内部的距离场, 如果一个点的距离场值大于该点周围的距离场值, 那么该点
可以作为 一个候选中心点;
将所有的候选中心点按照距离场值从大到小排序, 从距离场值 最大的点 开始选择;
如果该点与 所有已选中心点的距离都大于给定 阈值, 将该点加入到已选 中心点的集合
中, 从距离场值最大的已选中心 点开始逐步生 成螺旋线, 跟踪螺旋线每个位置的距离场值,
当距离场值下降了val(可调整参数)时停止, 得到了一个中心的螺旋线 段, 然后继续从下一
个已选中心 点开始, 重复上述过程, 在最后一段螺旋线越过形状边界时停止, 最终得到多中
心的螺旋线。
8.根据权利要求1所述的形状约束的语义词云自动生成方法, 其特征在于, 所述步骤八
中, 通过:
计算形状内部的向量场;
其中T表示 三角剖分后得到每 个三角形; i和j为 三角形中的一对顶点;
Ri=(cos2 θi,sin2 θi); θi为三角形顶点 i的向量场方向; k表示向量场的方向约束 项数;
ωk为第k个约束项的权重; lk为第k个约束项中受方向约束的三角形顶点 数;
为第k个
约束项中受方向约束的三角形顶点的约束方向;
向量场的约束方向包括中轴线约束、 中心约束和用户自定义约束。
9.根据根据权利要求1所述的形状约束的语义词云 自动生成方法, 其特征在于, 所述步
骤九中,根据螺旋线、 向量场和单词区域分配信息确定每个单词的位置和方向; 确定螺旋线
上每个点所在的区域, 得到每组单组所属区域包 含的螺旋线上的点;
分组单词独立布局, 遍历该单词所属区域包含的螺旋线上的点, 对于每个点, 使用方向
包围盒算法判断单词在当前点是否与其他单词发生碰撞, 再判断单词是否超出其所属 区
域; 若没有检测出碰撞且单词没有超出所属区域, 则单词能放置于 当前点, 摆放方向为当前
点的向量场方向。权 利 要 求 书 2/2 页
3
CN 115546353 A
3
专利 形状约束的语义词云自动生成方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:40上传分享