作者简介九号,携程数据技术专家,关注数据仓库架构、数据湖、流式计算、数据治理。一、背景元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。在数据仓库的建设质量的评估中,一个必不可少的评价指标就是数据产出的及时性,特别是对于P0级别的流程,及时性指标的好坏一方面决定了下游应用方能否准时地获取所需的业务指标,直接影响到业务的工作效率;另一方面也反映了相应指标的数据架构的合理程度。数据及时性,顾名思
导读蜀海供应链是集销售、研发、采购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业。2021年初,蜀海信息技术中心大数据技术研发团队开始测试用DolphinScheduler作为数据中台和各业务产品项目的任务调度系统工具。本文主要分享了蜀海供应链在海豚早期旧版本实践过程中的探索创新和在跨大版本升级部署过程中的经验,希望对大家有所启发和帮助。作者简介杜全,蜀海供应链大数据工程师,参与蜀海大数据平台和数据中台建设。业务背景介绍我们公司的主要业务如下图所示:领导驾驶舱:提供给高层领导查看的数据准实时分析,T+1经营分析、产品毛利类、市场价格等报表财务:各类日报、月报、年度报表;对账、毛
动手点关注干货不迷路DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。基于字节跳动内部沉淀的数据治理经验,火山引擎DataLeap具备完备的数据血缘能力,本文将从数据血缘应用背景、发展概况、架构演讲以及未来展望四部分,为大家介绍数据血缘在字节跳动进化史。背景介绍1.数据血缘是数据资产平台的重要能力之一在火山引擎DataLeap中,数据资产平台主要提供元数据搜索、展示、资产
目录前言一、Druid简介二、DruidSQLParserParserASTVisitor三、血缘功能实现1.建表语句1.直接Create+字段定义2.Createtable...asselect.. 2.插入1.标准语法2.高级语法(MultipleInserts)3.高级语法(DynamicPartitionInserts)点关注,防走丢,如有纰漏之处,请留言指教,非常感谢前言之前开发的基于Python语言的sqlparse库开发的SQL语言通用解析工具目前已经开源至github,大家如果有需要可以去看:https://github.com/Fanstuck/SQLblood-relati
目录前言一、字段血缘1.区别字段2.区别标识符序列3.功能函数设定二、字段血缘可视化点关注,防走丢,如有纰漏之处,请留言指教,非常感谢前言SQL解析和血缘追踪的研究现在差不多可以告一段落了,从8月22日写HiveSQL源码之语法词法编译文件解析一文详解这篇文章以来便断断续续的对SQL语法解析研究,到了今天终于是有了一番成果。一般做此类研究的项目都是在数据治理和数据中台方面的服务作支撑,对于数据安全作用挺大的,多的内容我在上篇文章里面已经讲述了很多了,这里不再多提:基于Python-sqlparse的SQL表血缘追踪解析实现,大家可以看这篇文章,接下来是接着上篇内容补充一下该功能的完善,也就是实
需求背景需要在前端页面展示当前表字段的所有上下游血缘关系,以进一步做数据诊断治理。大致效果图如下:首先这里解释什么是表字段血缘关系,SQL示例:CREATETABLEIFNOTEXISTStable_bASSELECTorder_id,order_statusFROMtable_a;如上DDL语句中,创建的table_b的order_id和order_status字段来源于table_a,代表table_a就是table_b的来源表,也叫上游表,table_b就是table_a下游表,另外table_a.order_id就是table_b.order_id的上游字段,它们之间就存在血缘关系。I
元数据管理实践&数据血缘什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用数据,另一方面是为了让平台管理人员能更加有效的做好系统的维护管理工作。出发点很好,但通常这些元数据信息是散落在平台的各个系统,各种流程之中的,而它们的管理也可能或多或少可以通过各种子系统自身的工具,方案或流程逻辑来实现。那么我
目录版本信息操作记录安装datahubv0.10.0datahub快速部署元数据摄取通过sqlline获取指定sql文件中HiveSQL的字段级血缘关系,并将结果提交到datahub版本信息python3.8.16datahubv0.10.0操作记录安装datahubv0.10.0详见datahub官网 AMetadataPlatformfortheModernDataStack|DataHub执行命令python3-mpipinstall--upgradepipwheelsetuptoolspython3-mpipinstall--upgradeacryl-datahub==0.10.0查看
项目场景atlas支持对hive元数据的管理,通过执行bin/import-hive.sh脚本即可,但目前大多数离线平台是用spark分析数据的,而spark元数据atlas解析不出来数据血缘,这就需要我们自己通过解析spark执行计划再结合atlasrest-api组建出来我们的数据血缘,接下来和大家分享一下atlasrest-api使用方法。依赖引入org.apache.atlasatlas-client-v22.0.0com.google.guavaguavaslf4j-log4j12org.slf4jlog4jlog4jorg.apache.atlasatlas-client-comm
一、主动数据治理,数据治理新范式1、新治理范式探索的背景大多数管理过数仓的同学应该都有一个普遍共识是数据仓库建设时间越长,管理复杂度会越大。一是引入的数据技术越来越多,管理的集群会越来越多;二是参与数据生产和使用的角色和人员会越来越多;三是业务需要引入的数据会越来越多。最后会形成一个特别复杂的数据依赖网络,而数据管理的目标是要不断满足业务的效率、性能、质量、成本、安全等方面不断增长的需求。在上述背景下,三个问题会越来越突出:第一个问题是看不清。数据依赖网络越来越复杂,我们想要去理解某一个数据字段口径会越来越费时费力,一旦出现数据异常问题,想要去追溯到它的根因需要一层一层往上去找,一层一层去找人