iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211133160.4 (22)申请日 2022.09.16 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 邹雨巷 刘宇辰 马泽君 (74)专利代理 机构 北京市金杜律师事务所 11256 专利代理师 邓雪萌 (51)Int.Cl. G06F 40/47(2020.01) G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 40/30(2020.01) (54)发明名称 文本处理的方法、 装置、 电子设备和介质 (57)摘要 本公开的实施例涉及文本处理的方法、 装 置、 电子设备和介质。 该方法包括获得与源语言 的第一文本相对应的目标语言的第二文本。 该方 法还包括比较第一文本的第一语音长度和第二 文本的第二语音长度。 该方法还包括基于第一语 音长度和第二语音长度的比较, 将第二文本调整 为第三文本。 通过本公开的实施例可以在保持第 三文本的语义不变的情况下, 使得第三文本的语 音长度更接近第一文本的语音长度。 通过这种方 式, 使得第二语 言的第三文本与第一语 言的第一 文本之间既在语义上相同, 又在语音长度上接 近, 从而在语音相关领域的产品上提供更好的用 户体验。 权利要求书2页 说明书14页 附图5页 CN 115455990 A 2022.12.09 CN 115455990 A 1.一种文本处 理方法, 包括: 获得与源语言的第一文本相对应的目标语言的第二文本; 比较所述第一文本的第一语音长度和所述第二文本的第二语音长度; 以及 基于所述第一语音长度和所述第二语音长度的比较, 将所述第二文本调整为第三文 本。 2.根据权利要求1所述的方法, 其中将所述第二文本调整为所述第三文本包括: 确定所述第二语音长度与所述第一语音长度的比值; 基于所述比值确定所述第 二文本的长度标签, 其中所述长度标签指示针对所述第 二文 本的调整程度; 以及 基于所述长度标签和所述第二文本, 生成所述第三文本 。 3.根据权利要求2所述的方法, 其中生成所述第三文本包括: 确定所述长度标签和所述第二文本的混合的特 征表示; 以及 基于所述特 征表示, 生成所述第三文本 。 4.根据权利要求3所述的方法, 其中生成所述第三文本还 包括: 基于所述特 征表示, 生成与所述第二文本相对应的多个候选文本; 确定所述多个候选文本的每 个候选文本的得分; 以及 将所述多个候选文本中得分最高的候选文本确定为所述第三文本 。 5.根据权利要求 4所述的方法, 其中生成所述多个候选文本包括: 基于所述特 征表示, 确定多个候选 字词及其字词解码概 率; 基于所述字词解码概 率, 确定所述多个候选 字词的阈值数目个字词组合; 以及 将所述阈值数目个字词组合确定为所述多个候选文本 。 6.根据权利要求4所述的方法, 其中确定所述多个候选文本的每个候选文本的得分包 括: 针对所述多个候选文本中的每 个候选文本: 确定语言质量得分和语音长度得分; 以及 基于所述语言质量得分和所述语音长度得分的加权和, 确定每 个候选文本的得分。 7.根据权利要求5所述的方法, 其中确定所述语言质量得分包括: 确定每个候选文本的文本解码概 率; 以及 基于所述文本解码概 率, 确定所述语言质量得分。 8.根据权利要求7 所述的方法, 其中确定每 个候选文本的文本解码概 率包括: 确定每个候选文本中的每 个字词的字词解码概 率的乘积; 以及 将所述乘积确定为每 个候选文本的所述文本解码概 率。 9.根据权利要求5所述的方法, 其中确定所述语音长度得分包括: 基于每个候选文本的语音长度与所述第一语音长度, 确定为所述语音长度得分。 10.根据权利要求1所述的方法, 其中所述第一语音长度指示所述第一文本 中所包括的 音素和音节中的至少一项的数目, 并且所述第二语音长度指示所述第二文本中所包括的音 素和音节中的至少一项的数目。 11.根据权利要求1所述的方法, 其中所述方法由经训练的文本转写模型执行, 所述方 法还包括:权 利 要 求 书 1/2 页 2 CN 115455990 A 2利用样本数据来训练所述文本转写模型, 其中所述样本数据包括待转写文本、 所述待 转写文本的长度标签、 以及与所述待转写 文本具有相同语义的目标文本 。 12.一种文本处 理装置, 包括: 文本获得模块, 被 配置为获得与源语言的第一文本相对应的目标语言的第二文本; 长度比较模块, 被配置为比较所述第 一文本的第 一语音长度和所述第 二文本的第 二语 音长度; 以及 文本调整模块, 被配置为基于所述第一语音长度和所述第二语音长度的比较, 将所述 第二文本调整为第三文本 。 13.一种电子设备, 包括: 处理器; 以及 与所述处理器耦合的存储器, 所述存储器具有存储于其中的指令, 所述指令在被所述 处理器执行时, 使得 所述电子设备 执行根据权利要求1至1 1中任一项所述的方法。 14.一种计算机可读存储介质, 其上存储有计算机可执行指令, 其中所述计算机可执行 指令被处 理器执行以实现根据权利要求1至1 1中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115455990 A 3
专利 文本处理的方法、装置、电子设备和介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:49
上传分享
举报
下载
原文档
(723.5 KB)
分享
友情链接
GA-T 1547-2019 信息安全技术 移动智能终端用户数据存储安全技术要求和测试评价方法.pdf
信通院 数字营销异常流量研究报告-2022年.pdf
安全牛 AI防火墙技术白皮书.pdf
GB-T 42572-2023 信息安全技术 可信执行环境服务规范.pdf
GB-T 16457.2-2023 金刚石圆锯片基体 第2部分:用于烧结锯片.pdf
NB-T 10876-2021 水电工程建设征地移民安置规划设计规范.pdf
NY-T 3928-2021 农作物品种试验规范 茶树.pdf
SL 285-2020 水利水电工程进水口设计规范.pdf
思度安全-DSMM-014 数据导入导出安全管理规范V1.0.pdf
YD-T 2699-2014 电信网和互联网安全防护基线配置要求及检测要求-安全设备.pdf
GB-T 36344-2018信息技术数据质量评价指标.pdf
GB-T 37972-2019 信息安全技术 云计算服务运行监管框架.pdf
T-CACE 087.1—2023 基于项目的温室气体减排量评估技术规范 互联网平台闲置物品交易 通用要求.pdf
GB-T 35273-2020 信息安全技术 个人信息安全规范.pdf
SN-T 4261-2015 出口中药材中苯并(a)芘残留量的测定.pdf
GB-T 29455-2012 照明设施经济运行.pdf
DB50-T 959-2019 营运高速公路施工管理规范 重庆市.pdf
专利 一种知识图谱更新方法、装置、设备及存储介质.PDF
DB4102-T 004-2020 检测设备计量溯源管理指南 开封市.pdf
YD-T 4204-2023 5G移动通信网络设备安全保障要求 核心网网络功能.pdf
1
/
22
评价文档
赞助3元 点击下载(723.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。