iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211052279.9 (22)申请日 2022.08.31 (71)申请人 北京沃东天骏信息技 术有限公司 地址 101116 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 高杰 (74)专利代理 机构 北京唯智勤实知识产权代理 事务所(普通 合伙) 11557 专利代理师 史立状 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) (54)发明名称 文本样本扩充方法、 装置、 电子设备和计算 机可读介质 (57)摘要 本公开的实施例公开了文本样 本扩充方法、 装置、 电子设备和计算机可读介质。 该方法的一 具体实施方式包括: 将初始文本样 本集中对应的 文本标签为目标文本标签的初始文本样本确定 为待扩充文本样本, 得到待扩充文本样本集; 对 于待扩充文本样本集中的每个待扩充文本样本, 执行以下扩充步骤: 根据目标扩充词性信息, 确 定待扩充文本样本包括的遮挡词; 根据待扩充文 本样本包括的遮挡词, 生成至少一个替换词; 根 据待扩充文本样本和至少一个替换词中的每个 替换词, 生成扩充文本样本, 得到扩充文本样本 集合; 将初始文本样本集和所得到的扩充文本样 本集合组合为文本样本集。 该实施方式与大数据 有关, 在缓解过拟合问题或欠拟合问题的同时缓 解了数据不平衡问题。 权利要求书2页 说明书12页 附图4页 CN 115422326 A 2022.12.02 CN 115422326 A 1.一种文本样本扩充方法, 包括: 将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充 文本样本, 得到待扩充 文本样本集, 其中, 所述目标文本标签满足预设少数类条件; 对于所述待扩充 文本样本集中的每 个待扩充 文本样本, 执 行以下扩充步骤: 根据目标扩充词性信息, 确定所述待扩充 文本样本包括的遮挡词; 根据所述待扩充 文本样本包括的遮挡词, 生成至少一个替换词; 根据所述待扩充文本样本和所述至少一个替换词中的每个替换词, 生成扩充文本样 本, 得到扩充 文本样本集 合; 将所述初始文本样本集和所 得到的扩充 文本样本集 合组合为文本样本集。 2.根据权利要求1所述的方法, 其中, 所述根据所述待扩充文本样本包括的遮挡词, 生 成至少一个替换词, 包括: 根据所述待扩充 文本样本包括的遮挡词, 生成遮挡待扩充 文本样本; 将对应所述遮挡 待扩充文本样本的各个词语的文本编码集合、 文本位置标识集合和词 语标签集 合输入至预设同类词语生成模型, 得到 至少一个替换词。 3.根据权利要求2所述的方法, 其中, 所述根据所述待扩充文本样本和所述至少一个替 换词中的每 个替换词, 生成扩充 文本样本, 得到扩充 文本样本集 合, 包括: 对所述待扩充文本样本包括的各个遮挡词对应的替换词进行排列组合, 得到替换词组 集, 其中, 所述待扩充文本样本包括的每个遮挡词对应的至少一个替换词的数量为预设替 换词数量; 对于所述替换词组集中的每个替换词组, 将所述待扩充文本样本包括的各个遮挡词分 别替换为所述 替换词组中的各个替换词, 得到替换文本样本 。 4.根据权利要求3所述的方法, 其中, 所述至少一个替换词中的每个替换词对应有替换 词标签; 以及 所述根据 所述待扩充文本样本和所述至少一个替换词中的每个替换词, 生成扩充文本 样本, 得到扩充 文本样本集 合, 还包括: 对于所得到的替换文本样本中的每个替换文本样本, 根据 所述替换文本样本中各个替 换词对应的替换词标签, 生成替换文本样本标签; 根据所生成的替换文本样本标签, 对所得到的替换文本样本进行排序, 得到替换文本 样本序列; 从所述替换文本样本序列中选择预设数量的替换文本样本作为扩充文本样本, 得到扩 充文本样本集 合。 5.根据权利要求4所述的方法, 其中, 在所述根据 所述待扩充文本样本和所述至少一个 替换词中的每个替换词, 生 成扩充文本样本, 得到扩充文本样本集合之后, 所述扩充步骤还 包括: 根据所述扩充 文本样本集 合和所述待扩充 文本样本, 生成样本文本分类结果; 响应于所述样本文本分类结果与 所述目标文本标签不一致, 删除所述扩充文本样本集 合。 6.根据权利要求1所述的方法, 其中, 所述方法还 包括: 根据所述文本样本集对初始文本分类模型进行训练, 得到训练完成的初始文本分类模权 利 要 求 书 1/2 页 2 CN 115422326 A 2型作为文本分类模型。 7.根据权利要求1所述的方法, 其中, 所述根据目标扩充词性信息, 确定所述待扩充文 本样本包括的遮挡词, 包括: 根据目标扩充词性信息, 确定所述待扩充 文本样本包括的目标词, 得到目标词集 合; 根据预设遮挡词比例和所述目标词集 合, 确定遮挡数量; 从所述目标词集 合中选择 所述遮挡数量的目标词分别作为遮挡词。 8.一种文本样本扩充装置, 包括: 确定单元, 被配置成将初始文本样本集中对应的文本标签为目标文本标签的初始文本 样本确定为待扩充文本样本, 得到待扩充文本样本集, 其中, 所述目标文本标签满足预设少 数类条件; 扩充单元, 被配置成对于所述待扩充文本样本集中的每个待扩充文本样本, 执行以下 扩充步骤: 根据目标扩充词性信息, 确定所述待扩充文本样本包括的遮挡词; 根据所述待扩 充文本样本包括的遮挡词, 生成至少一个替换词; 根据所述待扩充文本样本和所述至少一 个替换词中的每 个替换词, 生成扩充 文本样本, 得到扩充 文本样本集 合; 组合单元, 被配置成将所述初始文本样本集和所得到的扩充文本样本集合组合为文本 样本集。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑7中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实 现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115422326 A 3
专利 文本样本扩充方法、装置、电子设备和计算机可读介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 02:15:28
上传分享
举报
下载
原文档
(686.3 KB)
分享
友情链接
GM-T 0001.3-2012 祖冲之序列密码算法:第3部分:基于祖冲之算法的完整性算法.pdf
GB-T 8960-2015 涤纶牵伸丝.pdf
T-SSCE 0001—2021 关于团体标准 轴力自动补偿钢支撑技术规程 报批稿 的批复.pdf
GB 9706.255-2022 医用电气设备 第2-55部分:呼吸气体监护仪的基本安全和基本性能专用要求.pdf
T-CVIA 02-2017 健康显示器件第2部分 显示器用低蓝光显示器件技术要求与测试方法.pdf
GB-T 42688-2023 船舶有毒液体物质残余物排放处理要求.pdf
DB52-T 1597-2021 计量检测元数据及交互规范 贵州省.pdf
DB14-T 2255—2021 《机关事务标准体系总体框架》 山西省.pdf
DB64-T 1961—2023 机关事务信息化系统服务规范 宁夏回族自治区.pdf
GB-T 36250-2018 基于模型的航空装备研制 企业数字化能力等级评价.pdf
GB-T 6297-2002 陶瓷原料差热分析方法.pdf
GM-T 0016-2023 智能密码钥匙密码应用接口规范.pdf
GB-T 42381.61-2023 数据质量 第61部分:数据质量管理:过程参考模型.pdf
GB-T 34960.5-2018信息技术服务治理第5部分:数据治理规范标准文件.pdf
青藤云安全 2022攻防演练蓝队防守指南.pdf
WS-T 599.1-2018 医院人财物运营管理基本数据集第1部分:医院人力资源管理.pdf
GB-T 18005-1999 中国森林公园风景资源质量等级评定.pdf
GB-T 37408-2019 光伏发电并网逆变器技术要求.pdf
GM-T 0075-2019 银行信贷信息系统密码应用技术要求.pdf
桂林市销售燃放烟花爆竹管理条例.pdf
1
/
3
19
评价文档
赞助3元 点击下载(686.3 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。