jjzjj

火山引擎 DataLeap 数据血缘技术建设实践

经验一:数据血缘模型的分层架构1.挑战首先介绍一下字节内部数据血缘遇到的挑战。随着公司业务扩张、用户数量持续增长以及数仓建设不断完善,元数据种类和数量也经历了非线性增长,并在此期间涌现出一些问题。第一,扩展性。好的扩展性可以在面对新型元数据血缘时保证快速接入和迭代,而扩展性不佳则会导致在业务变化时需要不停地重构来适应业务,对业务造成很多影响。第二,性能。一个模型本身的插入和更新效率会直接影响数据的导入导出的流程,这些都会带来更直观的业务上的感受,所以需要考虑如何保证环节高效性。第三,时效性。很多应用场景对正确率格外敏感,如果血缘数据有延迟,其实就等于血缘的不准确,会对业务造成影响。最后,赋能业

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

正文共: 9053字 12图预计阅读时间: 23分钟    前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。    这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以然。今天我们就来看一下这个问题到底是怎么引起的,然后从HiveSql的语法树讲起,看看数据血缘到底是如何被检测到的。    最后提醒,文档版权为公众号大数据流动所有,请勿商用。相关技术问题以及安装包可以联系笔者独孤风加入相关技术交流群

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

正文共: 9053字 12图预计阅读时间: 23分钟    前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。    这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以然。今天我们就来看一下这个问题到底是怎么引起的,然后从HiveSql的语法树讲起,看看数据血缘到底是如何被检测到的。    最后提醒,文档版权为公众号大数据流动所有,请勿商用。相关技术问题以及安装包可以联系笔者独孤风加入相关技术交流群

Datahub新版本0.9.1更新,列级别数据血缘功能发布!

大家好,我是独孤风。近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。0.9.1版本又增加了,列的影响分析这个功能。这样Datahub对于列级别数据血缘的功能支撑就非常完善了。目前Datahub支持列级别数据血缘的主要功能有。1、建立列级别数据血缘的API2、Snowflake和Looker,Tableau的列级别数据血缘实现3、列级别数据血缘的可视化4、列的影响分析列级别的数据血缘非常的重要。主要是从“来”和“去”两个方向对于数据血缘进行分析。1、理解列如何计算产生的。该列是否由敏感数据计算产生。计算该列数据都进行了什么运算?2、理解该

Datahub新版本0.9.1更新,列级别数据血缘功能发布!

大家好,我是独孤风。近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。0.9.1版本又增加了,列的影响分析这个功能。这样Datahub对于列级别数据血缘的功能支撑就非常完善了。目前Datahub支持列级别数据血缘的主要功能有。1、建立列级别数据血缘的API2、Snowflake和Looker,Tableau的列级别数据血缘实现3、列级别数据血缘的可视化4、列的影响分析列级别的数据血缘非常的重要。主要是从“来”和“去”两个方向对于数据血缘进行分析。1、理解列如何计算产生的。该列是否由敏感数据计算产生。计算该列数据都进行了什么运算?2、理解该

李卓豪:网易数帆数据中台逻辑数据湖的实践

导读:本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分:关于网易数帆为什么做逻辑数据湖怎么做逻辑数据湖未来规划精彩问答--01关于网易数帆网易数帆是从网易杭州研究院孵化出来的。网易杭研的重要职责是公共技术的研究和产品孵化。下图是网易数帆的整体产品架构。1.网易大数据发展历史网易是国内领先的互联网技术公司,从2006年就开始对大数据相关技术进行探索。2009年为了支撑网易博客等产品的海量数据,开始了分布式文件系统、分库分表中间件(网易DDB)等技术的研发,并且于当年引入了Hadoop进行探索。2014年到2017年,网

李卓豪:网易数帆数据中台逻辑数据湖的实践

导读:本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分:关于网易数帆为什么做逻辑数据湖怎么做逻辑数据湖未来规划精彩问答--01关于网易数帆网易数帆是从网易杭州研究院孵化出来的。网易杭研的重要职责是公共技术的研究和产品孵化。下图是网易数帆的整体产品架构。1.网易大数据发展历史网易是国内领先的互联网技术公司,从2006年就开始对大数据相关技术进行探索。2009年为了支撑网易博客等产品的海量数据,开始了分布式文件系统、分库分表中间件(网易DDB)等技术的研发,并且于当年引入了Hadoop进行探索。2014年到2017年,网

浅谈数据血缘的实现原理

1、前言大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题:面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大其实,以上的这些问题都可以统一归类为数据发现问题。大部分企业会针对离线数仓任务进行SQL分析,构建表和字段的血缘关系,数据发现包括但不限于:数据表/列的业务分类分

浅谈数据血缘的实现原理

1、前言大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题:面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大其实,以上的这些问题都可以统一归类为数据发现问题。大部分企业会针对离线数仓任务进行SQL分析,构建表和字段的血缘关系,数据发现包括但不限于:数据表/列的业务分类分

火山引擎DataLeap数据血缘技术实现与具体用例

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。本文将聚焦数据血缘存储和血缘导出,分享在存储和导出数据血缘的模型设计以及优化,并介绍字节跳动在数据血缘建设过程中所遇到的挑战和技术实现以及数据血缘的具体用例,具体包括数据血缘模型、数据血缘优化、数据血缘用例、未来展望四个部分。本文介绍的数据血缘能力和实践,目前大部分已通过火山引擎DataLeap对外提供服务。一、数据血缘模