iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211172804.0 (22)申请日 2022.09.26 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214125 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 高璇 单震 李萍 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 潘悦梅 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/16(2019.01) G06F 40/284(2020.01) (54)发明名称 基于聚类算法的案例匹配方法及系统 (57)摘要 本发明公开了基于聚类算法的案例匹配方 法及系统, 属于数据处理技术领域, 要解决的技 术问题为如何对案例案例信息与法律信息进行 匹配。 获取多个案例文本以及多个法律文本, 将 所述多个案例文本以及多个法律文本均存储于 同一个文件夹中; 分别对每个案例文本以及每个 法律文本进行中文分词处理, 得到具有多个词语 的案例文本以及法律文本, 所述词语作为特征 词; 基于所述具有多个特征词的案例文本以及法 律文本、 通过TF ‑IDF权重计算方法构建文本特征 向量; 基于所述特征向量文本为输入, 通过聚类 方法进行案例和法律的特 征匹配。 权利要求书2页 说明书10页 附图2页 CN 115481251 A 2022.12.16 CN 115481251 A 1.一种基于聚类算法的案例匹配方法, 其特征在于, 用于实现案例信息与法律信息的 匹配, 所述方法包括如下步骤: 获取多个案例文本以及多个法律文本, 将所述多个案例文本以及多个法律文本均存储 于同一个文件夹中; 分别对每个案例文本以及每个法律文本进行中文分词处理, 得到具有多个词语的案例 文本以及法律文本, 所述词语作为特 征词; 基于所述具有多个特征词的案例文本以及 法律文本、 通过TF ‑IDF权重计算方法构 建文 本特征向量; 基于所述特 征向量文本为输入, 通过聚类方法进行案例和法律的特 征匹配。 2.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 对案例文本和法 条文本进行 预处理, 将案例文本和法条文本中无关字符去掉后, 分别进行中分 分词处理。 3.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 通过jieba分词 方法对案例文本和法条文本进行中文分词处 理。 4.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所述具有多 个特征词的案例文本以及法律文本、 通过TF ‑IDF权重计算方法构建文本特征向量, 包括如 下步骤: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 5.根据权利要求1 ‑4任一项所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所 述特征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。 6.一种基于聚类算法的案例匹配系统, 其特征在于, 用于通过如权利要求1 ‑5任一项所 述的基于聚类算法的案例匹配方法进行案例和法律的匹配, 所述系统包括: 采集模块, 所述采集模块用于获取多个案例文本以及多个法律文本, 将所述多个案例 文本以及多个法律文本均存 储于同一个文件夹中; 分词模块, 所述分词模块用于分别对每个案例文本以及每个法律文本进行中文分词处 理, 得到具有 多个词语的案例文本以及法律文本, 所述词语作为特 征词; 向量构建模块, 所述向量构建模块用于基于所述具有多个特征词的案例文本以及法律 文本、 通过TF ‑IDF权重计算方法构建文本特 征向量; 聚类分析模块, 所述聚类分析模块用于基于所述特征向量文本为输入, 通过聚类方法 进行案例和法律的特 征匹配。 7.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于对案例文本和法条文本进行预处理, 将案例文本和法条文本中无关字符去掉后, 分权 利 要 求 书 1/2 页 2 CN 115481251 A 2别进行中分 分词处理。 8.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于通过jieba分词方法对案例文本和法条文本进行中文分词处 理。 9.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述向量构建模 块用于执 行如下: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 10.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述聚类分析 模块用于基于所述特 征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。权 利 要 求 书 2/2 页 3 CN 115481251 A 3
专利 基于聚类算法的案例匹配方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 02:14:33
上传分享
举报
下载
原文档
(516.1 KB)
分享
友情链接
T-CTSS 58—2022 茶叶感官风味轮.pdf
GB 25972-2010 气体灭火系统及部件.pdf
GB-T 22026-2008 气雾剂级丙烷 A-108.pdf
LD-T 08-2022 人力资源社会保障灾备中心建设和运维管理规范.pdf
CISSP权威指南(AIO)第8版 中文.pdf
GA-T 1561-2019 移动警务系统 总体技术要求.pdf
T-GDCKCJH 059—2022 汽车域控制器(DCU)自动化测试线接口规范.pdf
T-CEC 633—2022 电力北斗输电线路舞动监测接收机技术规范.pdf
GB-T 24265-2014 工业用硅藻土助滤剂.pdf
GB-T 30013-2013 城市轨道交通试运营基本条件.pdf
tc260 网络安全标准实践指南 数据分类分级指引 2022 .pdf
GB-T 16838-2021 消防电子产品环境试验方法及严酷等级.pdf
DB61-T 1497-2021 人间充质干细胞库建设与管理规范 陕西省.pdf
GB-T 41986-2022 全钒液流电池 设计导则.pdf
GB-T 29765-2021 信息安全技术 数据备份与恢复产品技术要求与测试评价方法.pdf
GB-T 1311-2008 直流电机试验方法.pdf
DB21-T 3870-2023 工业数字化转型典型场景评估规范 辽宁省.pdf
中兴网络设备安全配置基线.doc
GB-T 35651-2017 突发事件应急标绘图层规范.pdf
GB-T 42627-2023 机械安全 围栏防护系统 安全要求.pdf
1
/
3
15
评价文档
赞助3元 点击下载(516.1 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。