(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211107466.2
(22)申请日 2022.09.13
(65)同一申请的已公布的文献号
申请公布号 CN 115186095 A
(43)申请公布日 2022.10.14
(73)专利权人 广州趣丸网络科技有限公司
地址 510000 广东省广州市天河区平云 路
163号之二16 01室 (部位: 自编之01室)
(72)发明人 邓其春 马金龙 吴文亮 黎子骏
张政统 王伟喆 曾锐鸿 盘子圣
焦南凯 兰翔 徐志坚 谢睿
陈光尧
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 任文生
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/279(2020.01)G06F 40/30(2020.01)
(56)对比文件
CN 1081083 54 A,2018.0 6.01
CN 104809 236 A,2015.07.2 9
CN 113850290 A,2021.12.28
US 201512075 5 A1,2015.04.3 0
JP 201025740 0 A,2010.1 1.11
US 201423 6953 A1,2014.08.21
CN 110196945 A,2019.09.0 3
刘 进.网络言语特 征识别. 《江苏警官 学院
学报 》 .20 09,
陈敬等.基 于双通道LSTM的用户年龄识别方
法. 《山东大学学报理学版》 .2017,
Ahmad Jamal KHDR.etal.Age and Gender
Identificati on by SMS Text Mes sages. 《2018
Internati onal Conference o n Artificial
Intelligence and Data Proces sing (IDAP)》
.2019, (续)
审查员 陈娜
(54)发明名称
一种未成年人文本识别方法及装置
(57)摘要
本申请公开了一种未成年人文本识别方法
及装置, 方法包括: 获取包含若干个语句的文本,
对于文本中的每个语句, 按照预先建立的语句识
别模组中各个识别组合的优先级由高到低的顺
序, 依次通过每个识别组合识别语句, 得到带有
一个关键词标记的中间标记语句, 分析关键词标
记以标上未成年人判别标记, 得到带有标记的目
标语句, 若带有未成年人标记的第一分数与带有
高疑似未成年人标记的第二分数之和大于预设
分数阈值, 确定待识别文本为未成年人文本。 可
见, 通过对待识别文本的内容逐层分析, 对每个
与未成年人性质有关的关键词赋予标记, 综合分
析每一语句的未成年人可疑程度并贴上标签, 从
而有效且可靠地分析出待识别文本是否属于未成年人。
[转续页]
权利要求书3页 说明书11页 附图8页
CN 115186095 B
2022.12.13
CN 115186095 B
(56)对比文件
Avar Pentel.Ef fect of dif ferent
feature types o n age based clas sificati on of short texts. 《2015 6th I nternati onal
Conference o n Informati on, Intelligence,
Systems and Ap plications (IISA)》 .2015,2/2 页
2[接上页]
CN 115186095 B1.一种未成年人文本识别方法, 其特 征在于, 包括:
获取包含若干个 语句的待识别文本;
对于所述待识别文本中的每个语句, 按照预先建立的语句识别模组中各个识别组合的
优先级由高到低的顺序, 依 次通过每个识别组合识别所述语句, 得到带有一个关键词 标记
的中间标记语句, 分析所述中间标记语句带有的关键词 标记, 对所述中间标记语句标上未
成年人判别标记, 得到带有所述未成年人判别标记的目标语句, 所述语句识别模组包含多
个不同优先级的识别组合, 每个识别组合包括语句匹配算法和关键词印章, 所述中间标记
语句所带有的关键词标记为, 所述语句被各个识别组合识别所标记的若干关键词标记中
的, 优先级较高的识别组合的关键词印章所命中的关键词对应的关键词标记;
统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量, 确
定为第一数量, 并根据所述第一数量计算得到第一分数;
统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的
数量, 确定为第二数量, 并根据所述第二数量计算得到第二分数;
若所述第一分数与 所述第二分数之和大于预设分数阈值, 确定所述待识别文本为未成
年人的文本 。
2.根据权利要求1所述的方法, 其特征在于, 对于所述待识别文本中的每个语句, 按照
预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序, 依次通过每个识别组
合识别所述语句, 得到带有一个关键词标记的中间标记语句, 包括:
对于所述待识别文本中的每个语句, 按照预先建立的语句识别模组中各个识别组合的
优先级由高到低的顺序, 依次通过每个识别组合中的, 利用了多模式AC算法加速的语句匹
配算法, 匹配所述语句中的各个关键词;
在所述待识别文本 中的每个语句中, 对被每个识别组合中的关键词印章命中的关键词
标上关键词标记;
确定通过 各个识别组合标 上关键词标记后的, 带有一个关键词标记的中间标记语句。
3.根据权利要求2所述的方法, 其特征在于, 所述语句识别模组中若干个识别组合中的
每个识别组合还 包括提前结束动作;
该方法还包括:
对于所述待识别文本中的每个语句, 在按照所述语句识别模组中各个识别组合的优先
级由高到低的顺序, 依 次通过每个识别组合识别所述语句的过程中, 当所述语句中存在关
键词命中当前识别组合中的提前结束动作时, 跳过优先级低于所述当前识别组合的识别组
合, 确定提前 结束识别的带有一个关键词标记的中间标记语句。
4.根据权利要求3所述的方法, 其特征在于, 所述语句识别模组中若干个识别组合中的
每个识别组合还 包括一个或多个过 滤条件;
对于所述待识别文本中的每个语句, 按照预先建立的语句识别模组中各个识别组合的
优先级由高到低的顺序, 依 次通过每个识别组合识别所述语句, 得到带有一个关键词 标记
的中间标记语句, 包括:
对于所述待识别文本中的每个语句, 按照预先建立的语句识别模组中各个识别组合的
优先级由高到低的顺序, 依 次通过每个识别组合识别所述语句, 得到条件过滤后的带有一
个关键词标记的中间标记语句。权 利 要 求 书 1/3 页
2
CN 115186095 B
3
专利 一种未成年人文本识别方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:52上传分享