iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210645858.8 (22)申请日 2022.06.09 (71)申请人 智诚时空科技 (浙江) 有限公司 地址 325000 浙江省温州市浙 南科技城创 新创业新天地1号楼6 04室 (72)发明人 王志鹏 秦星达 杨孙丽 郭莹 (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 张倚嘉 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/418(2022.01) G06V 30/42(2022.01) G06V 30/148(2022.01) G06V 30/24(2022.01)G06T 7/73(2017.01) (54)发明名称 AI通信大数据行程卡自动识别方法、 系统、 介质和设备 (57)摘要 本申请涉及AI通信大数据行程卡自动识别 方法, 利用图片检测和文本识别模 型对通行大数 据行程卡的图像进行识别, 至少得到文本列表, 文本列表包括文本, 基于文本列表获得途径地搜 索文本列表, 基于途径地搜索文本列表利用智能 文字分割引擎提取途径地文本, 具体是将搜索文 本列表中的文本根据分段规则进行分段, 得到若 干个子文本, 将每串子文本进行分割, 分割后的 每串字符串均与预设的数据库中的字符串进行 差别度比对得到差别 度, 计算每个子文本的若干 串字符串的差别 度之和得到差别度结果值, 提取 数据库中对应最小的差别度结果值的所述若干 串字符串作为该子文本识别后的途径 地文本, 可 提高途径地文本提取的成功率和准确度。 权利要求书3页 说明书14页 附图8页 CN 115171142 A 2022.10.11 CN 115171142 A 1.AI通信大数据行程 卡自动识别方法, 其特 征在于: 包括如下步骤: 利用图片检测和文本识别模型对通行大数据 行程卡的图像进行识别, 至少得到文本列 表, 所述文本列表至少包括文本, 基于所述文本列表获得途径地搜索文本列表, 基于所述途径地搜索文本列表利用智能文字分割引擎 提取途径地文本, 所述利用智能文字分割引擎 提取途径地文本包括如下步骤: 将所述途径地搜索文本列表中的文本根据分段规则进行分段, 得到若干个子文本, 将每个所述子文本进行分割得到若干串字符串, 分割后的每串字符串均与 预设的数据 库中的字符串进 行差别度比对得到差别度, 计算每个子文本的若干串字符串的差别度之和 得到差别度结果 值, 其中, 所述数据库的字符串包括 地区名字符串, 提取数据库中对应最小的差别度结果值的所述若干串字符串作为该子文本识别后的 途径地文本 。 2.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述分段规 则包括: 利用滑行窗对所述待提取文本进行框选分段得到若干个子文本, 所述滑行窗的长 度=所述预设的数据库中长度最长的字符串+N个字符, 所述 N为不小于1的整数。 3.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述将每个 所述子文本进行分割得到若干串字符串包括: 将每串所述子文本进行一次分割, 得到两串 字符串。 4.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述分割后 的每串字符串均与预设的数据库中的字符串进 行差别度比较得到差别度包括: 计算每串字 符串与所述预设的数据库中的字符串的编辑距离得到 差别度。 5.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 若差别度 结 果值的最小值大于预设值, 则不提取所述差别度结果值所对应的数据库的若干字符串作为 该子文本识别后的途径地文本 。 6.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述途径地 搜索文本列表的获取 方法包括如下步骤: 对通行大数据行程卡的图像通过图像处理得到 “白色”的信息区, 所述信息区内含有手 机号、 更新日期和途径地的文本信息, 识别所述文本信息形成子文本列 表, 所述子文本列 表 包括手机号、 更新日期和途径地的文本信息以及文本的位置坐标, 基于所述文本的位置坐标获取所述子文本列表中更新日期下方的文本作为所述途径 地搜索文本列表。 7.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述利用图 片检测和识别模型对通行大数据行程卡的图像进行识别, 至少得到文本列表之后, 执行如 下步骤: 如果识别到的文本条 数小于3, 则将文本列表旋转180 °, 和/或, 对所述文本列表中的每行文本设置文本框, 计算文本框长边与图片水平方向的夹角A, 如果夹角A大于45 °, 则不参与后续的文本提取, 和/或,权 利 要 求 书 1/3 页 2 CN 115171142 A 2对所述文本列表中的每行文本设置文本框, 利用每条文本的文本框左上角的坐标, 按 从上到下, 从左到右的顺序对文本列表的文本进行重新 排序。 8.根据权利要求1所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述文本列 表还包括文本所在文本框四个顶点的位置坐标, 基于所述文本列表提取手机号码, 手机号 码的提取 方法包括如下步骤: 遍历所述文本列表, 取文本列表中的汉字文本, 计算汉字文本和文本 “的动态行程卡 ” 的编辑距离, 如果编辑距离小于2, 且文本的位置坐标在图像的上半部 , 则将该行文本定为 候选文本, 取文本列 表中的数字文本, 如果连续最长数字的数量大于4个 , 且文本中数字的 总数量小于12个, 则也列为 候选文本, 遍历候选文本, 获取候选文本中的所有数字, 组成数字文本, 如果数字文本的数字数量大于6个并且小于12个, 且数字的第一位是1, 则取数字文本 的前3个和后4个数字, 中间用 “****”隔开, 作为 最终的手机号码; 如果数字文本的数字数量大于3个并且小于7个, 则使用文本框的位置坐标进行判断, 若所述文本框的左侧有3个数字, 且首位数字为1, 则该3个数字和右侧的后4个数字加上中 间的“****”组成手机号码, 否则表示手机号 提取失败, 不再进行后续的信息提取。 9.根据权利要求1或8所述的AI通信大数据行程卡自动识别方法, 其特征在于: 所述文 本列表还包括文本所在文本框四个顶点的位置坐标, 基于所述文本列表提取更新日期, 更 新日期的提取 方法包括如下步骤: 基于所述文本列表得到更新日期的搜索文本列表, 遍历所述更新日期的搜索文本列表, 在文本的连续最长数字的数量大于4个, 且数字的 总量为13个或14个的情况下, 如果文本中非数字部分和文本 “更新于:”的编辑距离小于2, 则直接认定该文本为更新日期信息, 否则将文本作为 候选添加到候选列表中, 遍历候选列表, 如果数字的总量为13个 , 则在最后添加0, 再转化为时间格式, 将转换 后的时间和当前时间作对比, 如果时间差在2 4小时以内, 则认为提取到了正确的时间, 否则 表示更新时间获取失败, 不再进行后续的信息提取。 10.根据权利要求9所述的AI 通信大数据行程 卡自动识别方法, 其特 征在于: 基于所述文本列表和所述图像识别行程码颜色, 包括如下步骤: 先判断所述文本列表中是否含有文本 “请收下绿色行程卡 ”, 若文本的匹配度在预设值 以上, 且所述文本的位置坐标在手机号码的位置坐标之上, 则确定行程码颜色为绿色, 否则 继续判断, 基于文本的位置坐标, 若在更新日期和途经地之间识别到单个的文本 “个”或“T”, 则认 为是绿码, 否则继续判断, 识别所述图像, 若 有箭头“ ↑ ”, 则确定行程码颜色为绿色, 否则为非绿色。 11.根据权利要求10所述的AI通信大数据 行程卡自动识别方法, 其特征在于: 所述识别 所述图像包括如下步骤: 首先将图片信息转 化为hsv颜色空间 并设置mask将非绿色转 化为黑色, 接着进行二 值化和高斯模糊处 理, 进一步进行边 缘检测,权 利 要 求 书 2/3 页 3 CN 115171142 A 3
专利 AI通信大数据行程卡自动识别方法、系统、介质和设备
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 09:46:00
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
T-FSRS 1.1—2019 抚松人参”栽培技术规程 第1部分:福星1号.pdf
freebuf 金融反欺诈调查报告 2019.pdf
GB-T 25068.1-2020 信息技术 安全技术 网络安全 第1部分:综述和概念.pdf
GB T 42446-2023 信息安全技术 网络安全从业人员能力基本要求.pdf
GB-T 43698-2024 网络安全技术 软件供应链安全要求.pdf
GB-T 42291-2022 压水堆核电厂控制区门窗辐射防护设计准则.pdf
DB63-T 2226-2023 绿色算力基础设施智能运维规范 青海省.pdf
T-CAS ES000000001—2022 工业品质量分级评价规则 通则.pdf
GB-T 36632-2018 信息安全技术 公民网络电子身份标识格式规范.pdf
NB-T 10488-2021 水电工程砂石加工系统设计规范.pdf
T-ACEF 104—2023 公民绿色低碳行为温室气体减排量化指南 行:步行.pdf
DB3502-T 056.1-2020 政务信息共享协同平台 第1部分:总体设计 厦门市.pdf
GB-T 30287.3-2013 卫星定位船舶信息服务系统 第3部分:信息安全规范.pdf
YD-T 1728-2008 电信网和互联网安全防护管理指南.pdf
ISO 5393 2017 Rotary tools for threaded fasteners — Performance test method.pdf
GB-T 12604.10-2023 无损检测 术语 第10部分:磁记忆检测.pdf
GB-T 38628-2020 信息安全技术 汽车电子系统网络安全指南.pdf
GB-T 15116-2023 压铸铜合金及铜合金压铸件.pdf
GB-T 35317-2017 公安物联网系统信息安全等级保护要求.pdf
T-ZJFS 012—2024 科创企业认定与评价指南.pdf
1
/
3
26
评价文档
赞助3元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。