jjzjj

DataLeap

全部标签

构建满足流批数据质量监控用火山引擎DataLeap

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等方面的经验,同时介绍火山引擎DataLeap数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。什么是数据质量管理广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有6个维度:完整性:指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,

火山引擎 DataLeap 计算治理自动化解决方案实践和思考

一、痛点 & 挑战在分析业务痛点和挑战之前,先要清楚业务现状。1、现状概览字节跳动数据平台目前使用了 1 万多个任务执行队列,支持 DTS、HSQL、Spark、Python、Flink、Shell 等 50 多种类型的任务。自动计算治理框架目前已经完成了离线任务的接入,包括 HSQL、HivetoX 的 DTS任务、ABtest 和底层通过 Spark 引擎执行的任务,涉及到上千个队列,国内可优化的任务的任务优化覆盖率达到 60% 以上。另外实时任务的优化也在同步推进。2、痛点:手动调参常⻅问题在手动调参的过程中,我们常常面临以下困境:系统复杂度:大数据计算系统与数据处理架构涵盖多种技术和组

火山引擎 DataLeap 计算治理自动化解决方案实践和思考

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 【导读】本文旨在探讨火山引擎DataLeap在处理计算治理过程中所面临的问题及其解决方案,并展示这些解决方案带来的实际收益。主要内容包括:探讨面临的痛点和挑战提供自动化的解决方案分析实践效果和收益提出结论和未来展望 ▌痛点&挑战在分析业务痛点和挑战之前,先要清楚业务现状。 现状概览字节跳动数据平台目前使用了1万多个任务执行队列,支持DTS、HSQL、Spark、Python、Flink、Shell等50多种类型的任务。自动计算治理框架目前已经完成了离线任务的接入,包括HSQL、HivetoX的DTS任务、AB

火山引擎 DataLeap:「数据血缘」踩过哪些坑?来看看字节跳动内部进化史

动手点关注干货不迷路DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。基于字节跳动内部沉淀的数据治理经验,火山引擎DataLeap具备完备的数据血缘能力,本文将从数据血缘应用背景、发展概况、架构演讲以及未来展望四部分,为大家介绍数据血缘在字节跳动进化史。背景介绍1.数据血缘是数据资产平台的重要能力之一在火山引擎DataLeap中,数据资产平台主要提供元数据搜索、展示、资产

火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构

整体架构 火山引擎DataLeap的Catalog搜索系统使用了开源的搜索引擎Elasticsearch进行基础的文档检索(Recall阶段),因此各种资产元数据会被存放到Elasticsearch中。整个系统包括4个主要的数据流程:实时导入。资产元数据变更时相应的平台发出实时变更消息,DataCatalog系统会消费变更消息,通过ingestion服务更新Elasticsearch中的文档,以此来达到搜索实时性秒级的需求。离线导入。实时导入的过程中可能会遇到网络波动等不可控因素导致更新失败,因此需要定时的任务来检查和增量更新缺失的元数据。用户行为记录。记录用户搜索点击日志,用来后续进行搜索的

数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近期,火山引擎DataLeap上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、关系、格式等,以报告形式展示探查后列的统计分布结果,避免数据质量导致项目开发、上线出现问题,主要应用于元数据管理、数据研发、数仓开发以及数据治理等环节,满足使用者对数据质量初探的需求。但在数据量级大、用户需要探查数据明细或需要数据预处理操作时,由于传统的数据探查要对全量表进行检测,导致无法实时产出报告、等待时间变

火山引擎 DataLeap:揭秘字节跳动业务背后的分布式数据治理思路

动手点关注干货不迷路导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践。字节跳动也在探索一种分布式的数据治理方式。本篇内容来源于火山引擎超话数据直播活动的回顾,将从以下四个部分展开分享:字节的挑战与实践数据治理的发展与分布式分布式自治架构分布式自治核心能力字节的挑战与实践首先来看一个问题:“一家公司,数据体系要怎么搭建?”方案一:整体规划,系统架构驱动方案二:问题出发,业务价值驱动在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:业务特点:业务发展快

火山引擎 DataLeap:揭秘字节跳动业务背后的分布式数据治理思路

动手点关注干货不迷路导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践。字节跳动也在探索一种分布式的数据治理方式。本篇内容来源于火山引擎超话数据直播活动的回顾,将从以下四个部分展开分享:字节的挑战与实践数据治理的发展与分布式分布式自治架构分布式自治核心能力字节的挑战与实践首先来看一个问题:“一家公司,数据体系要怎么搭建?”方案一:整体规划,系统架构驱动方案二:问题出发,业务价值驱动在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:业务特点:业务发展快

火山引擎 DataLeap 数据血缘技术建设实践

经验一:数据血缘模型的分层架构1.挑战首先介绍一下字节内部数据血缘遇到的挑战。随着公司业务扩张、用户数量持续增长以及数仓建设不断完善,元数据种类和数量也经历了非线性增长,并在此期间涌现出一些问题。第一,扩展性。好的扩展性可以在面对新型元数据血缘时保证快速接入和迭代,而扩展性不佳则会导致在业务变化时需要不停地重构来适应业务,对业务造成很多影响。第二,性能。一个模型本身的插入和更新效率会直接影响数据的导入导出的流程,这些都会带来更直观的业务上的感受,所以需要考虑如何保证环节高效性。第三,时效性。很多应用场景对正确率格外敏感,如果血缘数据有延迟,其实就等于血缘的不准确,会对业务造成影响。最后,赋能业

火山引擎 DataLeap 数据血缘技术建设实践

经验一:数据血缘模型的分层架构1.挑战首先介绍一下字节内部数据血缘遇到的挑战。随着公司业务扩张、用户数量持续增长以及数仓建设不断完善,元数据种类和数量也经历了非线性增长,并在此期间涌现出一些问题。第一,扩展性。好的扩展性可以在面对新型元数据血缘时保证快速接入和迭代,而扩展性不佳则会导致在业务变化时需要不停地重构来适应业务,对业务造成很多影响。第二,性能。一个模型本身的插入和更新效率会直接影响数据的导入导出的流程,这些都会带来更直观的业务上的感受,所以需要考虑如何保证环节高效性。第三,时效性。很多应用场景对正确率格外敏感,如果血缘数据有延迟,其实就等于血缘的不准确,会对业务造成影响。最后,赋能业