浅谈数据血缘的实现原理

Weki 2023-03-28 原文

1、前言

大数据时代，数据的来源极其广泛，各种类型的数据在快速产生，数据也是爆发性增长。从数据的产生，通过加工融合流转产生新的数据，到最终消亡，数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下，数仓的开发者经常需要解决以下问题：

面对成百上千张的数据表，不知道该如何关联，也不知道这些表具有什么业务价值

执行过长，慢的无法忍受的SQL脚本，却不敢轻易进行整改

数据表是否包含机密数据需要被清理，以及这些机密数据是否被转存导致权限放大

其实，以上的这些问题都可以统一归类为数据发现问题。大部分企业会针对离线数仓任务进行SQL分析，构建表和字段的血缘关系，数据发现包括但不限于: 数据表/列的业务分类分级和机密字段识别等。

2、数据血缘的基本概念

数据血缘(Data Lineage)，指的是数据从产生、ETL处理、加工、融合、流转到最终消亡，数据之间自然形成一种关系。这些关系就是描述数据的数据（元数据）。掌握了这个元数据，就能最大程度的做好数据的应用和管理。

tips：有童鞋对元数据感兴趣的，可以看这篇文章https://zhuanlan.zhihu.com/p/336504407

3、数据血缘的常见用途

业务域的划分针对任务的表和字段，通过血缘关系可以确定表的上下游，以及对应这个表所涵盖的业务范围包括哪些

提升调度性能

通过收集调度任务的开始结束时间，了解任务ETL链路的时间瓶颈，在根据JOB的执行情况定位性能瓶颈，通过调整任务的基线、保证任务的资源提供，提升整条ETL链路的执行效率。

数据异常定位

若在某天的调度中，发现数据异常，想确认是什么造成，可根据DQC和血缘关系了解底层数据波动情况，快速定位原因。

数仓链路优化通过对表和字段的下游使用频次，找到使用较多的，分析其是否有重复计算、浪费资源的情况。再判断是否可以因此建设事实或维度表、或者把计算的指标或维度沉淀。

调度依赖的准确性判断

在平时的开发过程中，很可能修改过SQL，但是忘记在调度平台上配置相对应的依赖，这样很可能会出现问题，其实通过调度平台的调度关系的元数据，和收集到的血缘关系进行对比，可定时性的判断调度任务依赖是否准确。

4、数据血缘的实现原理（表级别）

本文只阐述最基本的表级别的血缘关系的实现思路，真实的血缘实现，远比文章中的场景复杂。

原理一 SQL解析之正则表达式

在最开始时，刚毕业的小白，如果让你做好数仓的血缘元数据时，你会怎么做？

在初期的小白根本就不懂编译器、语法分析、词法分析以及AST这些概念时，想到的唯一办法就是通过正则这个朴素的手段去解析SQL了，想法也非常直接，FROM或者JOIN后面就是源表，INSERT INTO/INSERT OVERWRITE TABLE后面就是目标表。

source_table_regex = re.compile(r"(?:from|join)\s+(\S*)(?:\s+|;)", re.IGNORECASE)
target_table_regex = re.compile(r"insert\s+(?:into|overwrite)\s+table\s+(\S*)\s+", re.IGNORECASE)

不过，若是我们的SQL是这样的呢？

select * 
--from tableA
from tableB;

或者是这样的：

select * from tableA
where description = "from Excel";

你会发现，这个思路有很多漏洞。事实上如果加上一些if-else的判断，这个方案其实也满足了大部分场景。但是！！！！身为开发人员一定要明白一个理念，当你在生产环境中只要有一个场景没有满足，那就是bug。

原理二 AST语法树的解析

首先针对思路二，大家可以提前了解AST的概念，参考https://blog.csdn.net/u013212754/article/details/106981084

其次在了解思路二前提下，需要知道Hive SQL的执行过程（毕竟还是看的HQL的语法树）以及一些名词解释。

名词解释

词法分析器：词法分析器的工作是分析量化那些本来毫无意义的字符流，将他们翻译成离散的字符组（也就是一个一个的Token），供语法分析器使用。简单说就是分析sql里每个单词该怎么组成。

语法分析：语法分析器将把收到的Tokens组织起来，并转换成语法规则定义的所允许的结构。简单说就是研究这些单词该以怎样的结构组成一个SQL的。

Antlr：ANTLR (ANother Tool for Language Recognition ) 是一种语言识别工具，它提供了一个框架，可以通过包含 Java, C++, 或 C# 动作（action）的语法描述来构造语言识别器，编译器和解释器。

Hive SQL的解析流程：

Hive根据Antlr定义的词法、语法规则完成词法、语法分析将HQL解析为AST Tree；

遍历AST Tree，抽象出查询的基本组成单元Query Block；

遍历Query Block解析为操作树Operator Tree(即，逻辑执行计划)；

逻辑优化器进行操作树变换，合并多余的ReduceSinkOperator，减少shuffle；

遍历Operator Tree，将操作树翻译为对应的MapReduce任务；

物理优化器进行MapReduce任务变换，生成最终的执行计划。

具体步骤：

对Hive SQL进行词法分析和语法分析，获取对应的AST 原始的抽象语法树
AST语法树剪枝优化，减少遍历次数，提高语义解析的效率，具体主要做两方面的优化：

针对token中涉及到的无效解析节点进行删除,如order by，distributedby,cluster by,sort by以及limit；

针对token中where/having的子查询，在保证SQL语法正确性以及语义完整性的前提下，采用1=1 等价策略进行等价替换，降低了血缘关系解析的复杂性；通过以上两种剪枝操作，既可以减少SQL语句的复杂性，又可以降低AST语法树的层级，进一步减少了遍历AST树递归次数，降低血缘分析的复杂性，提高了语句解析效率。

遍历AST获取上游表名和下游表名，在SQL语句中存在大部分SQL语句片段即CTE。由于其在血缘关系解析中不起关键作用，且对SQL解析带来很大困扰，因此血缘关系解析需对CTE类型进行识别，并进行替换与删除。

5、总结

市面上其实针对数据血缘的产品有很多，像阿里DataWorks的数据地图、字节的DataLeap以及非常火的开源产品Apache Atlas都是非常好用工具产品。但是本质上是想通过这篇文章，让小伙伴们在使用这些产品的时候多去思考这些产品背后的实现原理。

血缘数据 span style 大数据数据仓库 $数据 DataLeap

有关浅谈数据血缘的实现原理的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf