iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049975.4 (22)申请日 2022.08.30 (71)申请人 胜斗士 (上海) 科技 技术发展有限公 司 地址 200120 上海市浦东 新区牡丹路60号 10-11层 (72)发明人 赵新歌  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 魏小薇 吴丽丽 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/35(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称 语料库的构建方法及装置、 电子设备和介质 (57)摘要 本公开提供了语料库的构建方法及装置、 电 子设备和介质, 涉及计算机技术领域, 尤其涉及 问答系统技术领域。 实现方案为: 获取第一文本 集合; 根据第一文本集合中的多个文本的语义信 息, 对多个文本进行聚类, 以得到多个第一文本 子集; 针对多个第一文本子集中的至少一部分第 一文本子集, 获取所述至少一部分第一文本子集 的至少一个第一关键词; 基于所述第一关键词, 获取近义关键词集合; 以及获取第一文本集合中 与近义关键词集合相匹配的文本, 以作为语料库 中的语料子集。 权利要求书3页 说明书11页 附图6页 CN 115408522 A 2022.11.29 CN 115408522 A 1.一种语料库的构建方法, 其特 征在于, 包括: 获取第一文本集 合, 所述第一文本集 合包括多个文本; 根据所述第一文本集合中的所述多个文本的语义信息, 对所述多个文本进行聚类, 以 得到多个第一文本 子集; 针对所述多个第 一文本子集中的至少一部分第 一文本子集, 获取所述至少一部分第 一 文本子集的至少一个第一关键词; 基于所述第一关键词, 获取近义关键词集合, 所述近义关键词集合包括与所述第一关 键词词义相近的多个近义关键词; 以及 获取所述第 一文本集合中与 所述近义关键词集合相匹配的文本, 以作为所述语料库中 的语料子集。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述第一文本集合中的所述多个文本 的语义信息, 对所述多个文本进行聚类, 以得到多个第一文本 子集包括: 从所述第一文本集合中提取第一文本子集, 并对第一文本集合进行更新, 在该第一文 本子集中, 不同文本之间的语义相似度大于第一阈值; 迭代地执行以下操作, 直到更新后的第 一文本集合中的文本之间的语义相似度不大于 所述第一阈值: 从经更新的第一文本集合中提取下个第一文本子集, 并再次对第一文本集合进行更 新, 在该下个第一文本 子集中, 不同文本之间的语义相似度大于所述第一阈值。 3.根据权利要求1或2所述的方法, 其特 征在于, 还 包括: 根据预设规则从所述多个第一文本 子集中获取 所述至少一部分第一文本 子集。 4.根据权利要求3所述的方法, 其特 征在于, 所述预设规则包括: 所述第一文本 子集所包括的文本数量大于第二阈值。 5.根据权利要求1所述的方法, 其特征在于, 针对所述多个第 一文本子集中的至少一部 分第一文本 子集, 获取 所述至少一部分第一文本 子集的至少一个第一关键词包括: 从所述至少一部分第一文本 子集中获取第一标准文本; 将所述第一标准文本输入语义相似度模型, 获取所述语义相似度模型所输出的与 所述 第一标准文本语义相似的至少一个第一相似文本; 以及 基于所述至少一部分第 一文本子集中的至少一个文本和所述至少一个第 一相似文本, 获取所述至少一个第一关键词。 6.根据权利要求5所述的方法, 其特征在于, 基于所述至少一部分第 一文本子集中的至 少一个文本和所述至少一个第一相似文本, 获取 所述至少一个第一关键词包括: 从所述至少一个文本和所述至少一个第 一相似文本 中去除预设词汇, 以获取中间文本 集合; 以及 基于所述中间文本集 合, 获取至少一个第一关键词。 7.根据权利要求6所述的方法, 其特征在于, 基于所述中间文本集合, 获取至少一个第 一关键词包括: 基于所述中间文本集 合中各个词的词频, 获取 所述至少一个第一关键词。 8.根据权利要求5所述的方法, 其特征在于, 基于所述至少一部分第 一文本子集中的至 少一个文本和所述至少一个第一相似文本, 获取 所述至少一个第一关键词包括:权 利 要 求 书 1/3 页 2 CN 115408522 A 2通过词频 ‑逆文本频率指数TF ‑IDF方法, 从所述至少一部分第一文本子集中的至少一 个文本和所述至少一个第一相似文本中获取 所述至少一个第一关键词。 9.根据权利要求1所述的方法, 其特征在于, 获取所述第 一文本集合中与所述近义关键 词集合相匹配的文本, 以作为所述语料库中的语料子集包括: 以正则表达式的方式从所述第一文本集合中获取其中包括所述近义关键词集合中任 意近义关键词的文本, 并将所获取的文本作为语料子集。 10.根据权利要求1所述的方法, 其特 征在于, 还 包括: 从所述第一文本集 合中采样得到第二文本集 合; 根据所述第 二文本集合中的所述多个文本的语义信 息, 对所述第 二文本集合中的所述 多个文本进行聚类, 以得到多个第二文本 子集; 以及 针对所述多个第二文本 子集, 获取至少一个第二关键词, 其中, 基于所述第一关键词, 获取近义关键词集 合包括: 基于所述第一关键词以及所述至少一个第二关键词, 获取 所述近义关键词集 合。 11.根据权利要求10所述的方法, 其特征在于, 针对所述多个第二文本子集, 获取至少 一个第二关键词包括: 从所述多个第二文本 子集中获取第二标准文本; 将所述第二标准文本输入语义相似度模型, 获取所述语义相似度模型所输出的与 所述 第二标准文本语义相似的至少一个第二相似文本; 以及 基于所述多个第 二文本子集中的至少一个文本和所述至少一个第 二相似文本, 获取至 少一个第二关键词。 12.根据权利要求1所述的方法, 其特 征在于, 还 包括: 从所述语料子集中获取至少一个标准语料; 从所述语料子集中匹配得到与所述至少一个标准语料对应的多个相似语料; 以及 利用所述至少一个标准语料和所述多个相似语料训练模型。 13.一种语料库的构建装置, 其特 征在于, 包括: 文本集合获取单元, 被配置为获取第一文本集 合, 所述第一文本集 合包括多个文本; 聚类单元, 被配置为根据所述第一文本集合中的所述多个文本的语义信息, 对所述多 个文本进行聚类, 以得到多个第一文本 子集; 关键词获取单元, 被配置为针对所述多个第一文本子集中的至少一部分第一文本子 集, 获取所述至少一部分第一文本 子集的至少一个第一关键词; 关键词集合获取单元, 被配置为基于所述第一关键词, 获取近义关键词集合, 所述近义 关键词集 合包括与所述第一关键词 词义相近的多个近义关键词; 以及 文本匹配单元, 被配置为获取所述第 一文本集合中与 所述近义关键词集合相匹配的文 本, 以作为所述语料库中的语料子集。 14.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行根据权利要求1 ‑12中任一项所述的方法。权 利 要 求 书 2/3 页 3 CN 115408522 A 3

.PDF文档 专利 语料库的构建方法及装置、电子设备和介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料库的构建方法及装置、电子设备和介质 第 1 页 专利 语料库的构建方法及装置、电子设备和介质 第 2 页 专利 语料库的构建方法及装置、电子设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:16:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。