专利 基于OCR和ASR的短视频推荐方法、装置及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211139243.4 (22)申请日 2022.09.19 (71)申请人深圳市万物云科技有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司）申请人深圳市第五空间网络科技有限公司 (72)发明人袁戟　黄月红　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师王暄 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/783(2019.01) G06F 16/735(2019.01)G06F 16/75(2019.01) G06V 30/414(2022.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 5/00(2006.01) G06N 20/20(2019.01) G10L 15/26(2006.01) (54)发明名称基于OCR和ASR的短视频推荐方法、装置及相关设备 (57)摘要本发明公开了基于OCR和ASR的短视频推荐方法、装置及相关设备。该方法对用户产生过行为数据的短视频的关键帧进行OCR识别，提取关键帧的视频文本，并对视频文本进行关键字提取，得到视频关键字；获取短视频的音频数据，通过ASR语音识别技术对音频数据进行语义识别，得到有断句的语音文本，并对语音文本进行关键字提取，得到音频关键字；对视频关键字和音频关键字进行合并，得到合并文本，并通过预置的 SmoothNLP模型对合并文本进行关键词提取，得到关键新词；对关键新词进行过滤提取对应的标签数据，并根据标签数据对不同用户进行聚类；对聚类后的每一类别用户，将对应的关键新词输入预训练的LightGBM模型进行视频推荐，得到推荐视频。该方法提升用户的使用体验感。权利要求书2页说明书7页附图2页 CN 115510274 A 2022.12.23 CN 115510274 A 1.一种基于OCR和ASR的短视频推荐方法，其特征在于，包括：对用户产生过行为数据的短视频的关键帧进行OCR识别，得到所述关键帧的视频文本，并基于预训练的TFIDF模型对所述视频文本进行关键字提取，得到视频关键字；获取所述短视频的音频数据，通过ASR语音识别技术对所述音频数据进行语义识别，得到有断句的语音文本，并通过所述T FIDF模型对所述语音文本进行关键字提取，得到音频关键字；对所述视频关键字和音频关键字进行合并，得到合并文本，并通过预置的S moothNLP模型对所述合并文本进行关键词提取，得到关键新词；对所述关键新词进行过滤提取对应的标签数据，并根据所述标签数据对不同用户进行聚类；对聚类后的每一类别用户，将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐，得到推荐视频。 2.根据权利要求1所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述对用户产生过行为数据的短视频的关键帧进行OCR识别，得到所述关键帧的视频文本之前，包括：对所述短视频进行均匀抽帧处理，得到多张帧图像；对所有帧图像进行相关性检测，得到每一张帧图像之间的相关性，保留相关性小的帧图像作为所述关键帧。 3.根据权利要求1所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述通过预置的SmoothNLP模型对所述合并文本进行关键词提取，得到关键新词，包括：计算所述合并文本中任意两个字符串的互信息，并根据所述互信息确定所述合并文本中每一候选词的平均互信息；计算所述合并文本中每一候选词的信息熵，并基于所述信息熵和平均互信息确定每一候选词的候选词评分，以候选词评分高的候选词作为关键新词。 4.根据权利要求3所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述计算所述合并文本中任意两个字符串的互信息，并根据所述互信息确定所述合并文本中每一候选词的平均互信息，包括：按如下公式计算所述合并文本中任意两个字符串的互信息 MI：其中， s1、 s2分别表示所述合并文本中的任意两个字符串， p表示概率函数， ln表示自然对数运算；按如下公式计算所述合并文本中每一候选词的平均互信息AMI：其中， W表示候选词， n表示候选词内字符串的数量。 5.根据权利要求4所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述计算所述合并文本中每一候选词的信息熵，包括：权　利　要　求　书 1/2 页 2 CN 115510274 A 2按如下公式计算所述信息熵L(W)：其中， LE表示左邻熵， RE表示右邻熵， e表示自然底数。 6.根据权利要求5所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述基于所述信息熵和平均互信息确定每一候选词的候选词评分，包括：按如下公式计算所述候选词评分 score： score＝α·L(W)+β·AMI(W), 其中， α 、 β 分别表示比例常数。 7.根据权利要求1所述的基于OCR和ASR的短视频推荐方法，其特征在于，所述对聚类后的每一类别用户，将对应的所述关键新词输入预训练的LightGBM模型进行视频推荐，得到推荐视频之后，还包括：采用如下评估指标对所述推荐视频进行评估：其中， γ表示1和2的常数，取1表示F1，取2表示F2， P表示准确率， R表示召回率。 8.一种基于OCR和ASR的短视频推荐装置，其特征在于，包括：视频关键字提取模块，用于对用户产生过行为数据的短视频的关键帧进行OCR识别，得到所述关键帧的视频文本，并基于预训练的TFIDF模型对所述视频文本进行关键字提取，得到视频关键字；音频关键字提取模块，用于获取所述短视频的音频数据，通过ASR语音识别技术对所述音频数据进行语义识别，得到有断句的语音文本，并通过所述T FIDF模型对所述语音文本进行关键字提取，得到音频关键字；新词提取模块，用于对所述视频关键字和音频关键字进行合并，得到合并文本，并通过预置的Smo othNLP模型对所述合并文本进行关键词提取，得到关键新词；聚类模块，用于对所述关键新词进行过滤提取对应的标签数据，并根据所述标签数据对不同用户进行聚类；推荐模块，用于对聚类后的每一类别用户，将对应的所述关键新词输入预训练的 LightGBM模型进行视频推荐，得到推荐视频。 9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7 中任一项所述的基于OCR和ASR的短视频推荐方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求 1至7任一项所述的基于OCR和ASR的短视频推荐方法。权　利　要　求　书 2/2 页 3 CN 115510274 A 3

专利 基于OCR和ASR的短视频推荐方法、装置及相关设备

专利基于OCR和ASR的短视频推荐方法、装置及相关设备