一、背景和目标腾讯欧拉数据平台,是一款基于DataOps理念,实现生产即治理的一站式数据平台,主要包括三个子产品:首先是资产工厂,负责整体的数仓建设、数仓模型的开发。第二块是欧拉的治理引擎,负责全链路成本的数据治理。第三块是数据发现,负责元数据的管理。数据血缘是欧拉的一个子模块,直接服务于以上三个子产品,也是本次分享的主题。为什么要做数据血缘?主要有两个原因,一个是现状不能满足血缘数据需求,另一个是希望以血缘为基础做更多的事情。之前公司内部另外一个BG负责引擎的开发,我们只能拿到yarn日志和hook的相关信息,所以只能拿到离线数仓内部表级别的数据血缘,拿不到埋点日志下发到管道再接入离线数仓这