iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210196245.0 (22)申请日 2022.03.01 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 魏峥 胡清 李国涛 周永进 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 孙园园 (51)Int.Cl. G06F 16/11(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) (54)发明名称 适用于Hive数据仓库进行数据写入与更新 的方法及系统 (57)摘要 本发明公开了适用于Hive数据仓库进行数 据写入与更新的方法及系统, 属于大数据存储与 计算机技术领域, 本发明要解决的技术问题为如 何实现Hive数据仓库的数据更新及删除, 保证 ACID语义的同时, 降低数据入库的延迟, 且能够 提供可视化界面, 采用的技术方案为: 该方法是 使用索引机制及文件重写实现数据更新, 通过可 视化界面配置数据源、 配置目的表、 操作类型及 更新列的信息进行数据写入或更新; 同时借助 Data Lakes的开源方案Hudi, 每张Hive表在HDFS 数据文件的基础上, 维护了一条包含在不同时间 所有对数据集操作的时间轴, 该时间轴包含各个 时间点对Hive表的操作, 包括对Hive表执行的动 作类型、 时间戳及当前时间表所处的状态。 权利要求书2页 说明书5页 附图2页 CN 114564445 A 2022.05.31 CN 114564445 A 1.一种适用于Hive数据仓库进行数据写入与更新的方法, 其特征在于, 该方法是使用 索引机制及文件重写实现数据更新, 通过可视化界面配置数据源、 配置目的表、 操作类型及 更新列的信息进行数据写入或更新; 同时借助Data Lakes的开源方案Hudi, 每张Hive表在 HDFS数据文件的基础上, 维护了一条包含在不同时间所有对数据集操作的时间轴, 该时间 轴包含各个时间点对Hive表的操作, 包括对Hive表执行的动作类型、 时间戳及当前时间表 所处的状态; 并依靠时间轴在读取器和写入器之间提供快照隔离, 支持回滚到前一个时间 点; 在数据更新时, 通过索引查询数据文件位置信息, 每次更新记录时, 包含该记录的文件 均使用更新后的值进行重写。 2.根据权利要求1所述的适用于Hive数据仓库进行数据写入与更新的方法, 其特征在 于, 该方法具体如下: 数据源配置: 配置 完成Hive 数据源连接; 数据开发: 创建数据写入与更新的处 理器, 进行 数据开发; 属性配置: 选择 数据源、 目的表及更新字段的信息, 完成属性配置; 数据更新: 进行 数据写入和更新。 3.根据权利要求1或2所述的适用于HiveE数据仓库进行数据写入与更新的方法, 其特 征在于, 数据写入和更新具体如下: 开始提交: 判断上次任务是否失败: 若失败, 则触发回滚操作, 并根据当前时间生成一 个事务开始的请求标识元 数据; 构造Record对象: 根据元 数据信息构造Record对象; 数据去重:根据主键对数据进行去重, 避免重复数据写入; 数据位置信息获取:在修改记录中, 根据索引获取当前记录所属文件的fi leid; 数据合并: 重写索引命中的fi leId快照文件; 完成提交: 在元数据中生成xxxx.commit文件; 当生成commit元数据文件时, 查询引擎 根据元数据查询到更新后的数据。 4.根据权利要求1所述的适用于Hive数据仓库进行数据写入与更新的方法, 其特征在 于, 所述时间轴包括对Hive表的所有操作。 5.根据权利要求4所述的适用于Hive数据仓库进行数据写入与更新的方法, 其特征在 于, 对Hive表的所有操作具体如下: Commit: 一次提交表示将一组记录原子写入到数据集中; Clean: 删除数据集中不再需要的旧版本文件; Rollback: 表示当com mit不成功时进行回滚, 其会删除在写入过程中产生的部分文件; Savepoint: 将任意文件组标记为已保存; 在发生灾难需要恢复数据的情况下, 有助于 将数据集还原到时间轴上的任一个点; Compacti on: 将基于行的l og日志文件转变成列式parquet数据文件; Restore: 将从任一个savepo int恢复。 6.一种适用于 Hive数据仓库进行 数据写入与更新的系统, 其特 征在于, 该系统包括, 数据源模块, 用于配置 Hive数据源; 数据开发模块, 用于数据写入或更新。 7.根据权利要求6所述的适用于Hive数据仓库进行数据写入与更新的系统, 其特征在权 利 要 求 书 1/2 页 2 CN 114564445 A 2于, 所述数据开发模块的工作过程具体如下: (1)、 通过 数据源管理功能创建Hive 数据源; (2)、 配置 HiveJDBC连接地址; (3)、 上传Krb5配置文件; (4)、 上传Hive服 务的principle以及包 含Hive身份信息的keytab文件。 8.根据权利要求6或7所述的适用于Hive数据仓库进行数据写入与更新的系统, 其特征 在于, 所述数据开发模块通过选择用于Hive写入或更新的processor配置相关属性; 其中, 相关属性包括选择Hive数据源、 选择Hive数据 表、 配置操作类型及配置更新列; 操作类型包 括insert或update; 数据开发模块的高级属性中能够配置数据文件的最大值、 最小值及数据写入的并发数 的信息。 9.一种电子设备, 其特 征在于, 包括: 存 储器和至少一个处 理器; 其中, 所述存 储器存储计算机执 行指令; 所述至少一个处理器执行所述存储器存储的计算机执行指令, 使得所述至少一个处理 器执行如权利要求1至5任一所述的适用于Hive数据仓库进行数据写入与更新的方法及系 统。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 执行指令, 当处理器执行所述计算机执行时, 实现如权利要求1至5中任一所述的适用于 Hive数据仓库进行 数据写入与更新的方法及系统。权 利 要 求 书 2/2 页 3 CN 114564445 A 3
专利 适用于Hive数据仓库进行数据写入与更新的方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 11:21:30
上传分享
举报
下载
原文档
(437.0 KB)
分享
友情链接
GB-T 9634.8-2018 铁氧体磁心 表面缺陷极限导则 第8部分:PQ型磁心.pdf
GB-T 37934-2019 信息安全技术 工业控制网络安全隔离与信息交换系统安全技术要求.pdf
GB-T 17296-2009 中国土壤分类与代码.pdf
T-CSTM 00500—2022 绿色设计产品评价技术规范 光伏逆变器.pdf
阿里云 云原生数据湖解决方案蓝皮书.pdf
GB-T 41807-2022 信息安全技术 声纹识别数据安全要求.pdf
GB-T 26262-2010 通信产品节能分级导则.pdf
T-JYBZ 002—2018 教育用音视频录播系统.pdf
GB-T 25064-2010 信息安全技术 公钥基础设施 电子签名格式规范.pdf
DB13-T 2957-2019 工业计量与控制数字化应用规范 河北省.pdf
NB-T 10607—2021 水力发电厂门禁系统设计导则.pdf
信息安全技术 网络安全等级保护基本要求 第1部分: 安全通用要求 标准征求意见稿.pdf
腾讯研究院:2024工业大模型应用报告-2024-04-宏观大势.pdf
DB13-T 5266-2020 基于岩体基本质量BQ分级法的公路隧道围岩级别快速判定技术要求 河北省.pdf
JR-T0072-2020 金融行业网络安全等级保护测评指南.pdf
GB-T 16604-2017 涤纶工业长丝.pdf
GB-T 8464-2023 铁制、铜制和不锈钢制螺纹连接阀门.pdf
GB-T 30030-2013 自动导引车 AGV 术语.pdf
GB-T 42461-2023 信息安全技术 网络安全服务成本度量指南.pdf
DB42-T 1596-2020 婴幼儿日间照料托育机构服务规范 湖北省.pdf
1
/
3
10
评价文档
赞助3元 点击下载(437.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。