数仓

数仓成本下降近一半，StarRocks 存算分离助力云览科技业务出海

成都云览科技有限公司倾力打造了凤凰浏览器，专注于为海外用户提供服务，公司致力于构建一个全球性的数字内容连接入口，为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司，从数据中挖掘价值一直是公司核心任务，公司以前选用了众多组件来提升内部大数据分析效率，如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询，但经过长期实践，最终决定将所有内部数据分析平台统一至StarRocks。而且，社区在3.0.0版本中发布了存算分离能力，与公司内部大数据平台部门正在推动的降本增效理念非常契合，部门也在第一时间测试验证，确定评测各方面满足业务需求后，已经开始

出海助力 xff0c xff0 padding 后端

【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍

2023年12月7日，作为KubeSphere的合作伙伴，Databend荣幸地受邀参与了KubeSphere社区主办的云原生技术直播活动。本次活动的核心议题为「Databend云数仓与DatabendPlayground扩展组件介绍」，此次分享由DatabendLabs的研发工程师尚卓燃担任主讲嘉宾，向与会者呈现了一场内容丰富的在线分享会。大纲回顾什么是DatabendDatabend是一款使用Rust研发的新一代云原生数据仓库，完全面向云架构并基于对象存储构建。它具备即时扩缩容能力，能够在数分钟内增加数百倍的算力，为企业提供了一个基于对象存储、湖仓一体化、计算和存储分离的大数据管理和分析集

Databend 活动回顾 xff0c xff xff0 数据库云原生

数仓实践丨主动预防-DWS关键工具安装确认

摘要：gdb确认是否安装，所带来的该工具用户数据库实例触发core问题后集群状态反复异常，对此问题及时分析根因并及时进行规避。本文分享自华为云社区《主动预防-DWS关键工具安装确认》，作者：上官寒雨。【关键工具确认】1、gdb确认是否安装（该工具用户数据库实例触发core问题后集群状态反复异常，对此问题及时分析根因并及时进行规避）登录任意集群节点执行以下命令（HC/HCS/HCSO环境登录沙箱外执行）：gdb--help提示以下信息则已安装2、gstack是否安装（与gdb关联工具，gdb安装后此工具会默认安装，作用与gdb相同）登录任意集群节点执行以下命令（HC/HCS/HCSO环境登录沙箱

预防关键 span data https 其他数据库

FQS：一种神奇的数仓查询优化技术

本文分享自华为云社区《根据执行计划优化SQL【绽放吧！GaussDB(DWS)云原生数仓】》，作者：西岭雪山。引言如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY"到底代表什么意思？我们看官网的描述是代表这执行计划已经CN直接将原语句下发到DN，各DN单独执行，并将执行结果在CN上进行汇总。且不需要做过多的调整了，真的是这样吗？FQS计划，完全下推两表JOIN，且其连接条件为各表的分布列，在关闭stream算子的情况下，CN会直接将该语句发送至各DN执行，最后结果在CN汇总。SETenable_stream_operator=off;SETexplain_perf_mo

神奇优化 span color style 大数据

数仓调优实践丨多次关联发散导致数据爆炸案例分析改写

本文分享自华为云社区《GaussDB(DWS)性能调优：求字段全体值中大于本行值的最小值——多次关联发散导致数据爆炸案例分析改写》，作者：Zawami。1、【问题描述】语句中存在同一个表多次自关联，且均为发散关联，数据爆炸导致性能瓶颈。2、【原始SQL】explainverboseWITHTMPAS(SELECTWH_ID,(IFNULL(SUBSTR(THE_DATE,1,10),'1900-01-01')||''||STOP_TIME)::TIMESTAMPASSTOP_TIME,(IFNULL(SUBSTR(THE_DATE,1,10),'1900-01-01')||''||'23:5

发散改写 span 128 color 大数据

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍：二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段3.dataX脚本三、利用Python自动生成Datax的json脚本1.创建mysql和hive数据库2.修改python脚本里面的密码(2处)和hdfs端口3.运行python脚本4.将生成的json文件上传到linux5.编写shell脚本b.sh6.运行shell一、mysql全量导入hive[分区表]需求介绍：本需求将模拟从MySQL中向Hive数仓中导入数据，数据以时

导入增量 span class token spark mysql hive

hive数仓-数据的质量管理

版本20231116要理解数据的质量管理，应具备hive数据仓库的相关知识文章目录1.理解什么是数据的质量管理：2.数据质量管理的规划数据质量标准的分类3.数据质量管理解决方案1.ods层的数据质量校验1）首先在hive上建立一个仓库，添加数据质量监控表2）然后建立检查检查表3）创建数据检验曾量表通用的脚本4）创建数据检测全量表的脚本5）脚本的运行2.dwd层的数据质量校验1）建立dwd层校验表2）编写数据检测脚本3.dws-dwt层数据校验4.ads层数据校验1）建立ads校验表2）编写数据检测脚本1.理解什么是数据的质量管理：数据的质量管理，表现保障在数据的健康性，即满足消费者期望程度，体

质量管理质量 span class token hive hadoop 数据仓库

大数据-离线数仓-工作流调度-工具：DolphinScheduler【可视化DAG工作流任务调度平台】【全能、轻量级、功能强大、美观、不需要自己写flow脚本、直接在web页面操作、国产、中文文档】

第1章DolphinScheduler简介1.1DolphinScheduler概述ApacheDolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。1.2DolphinScheduler核心架构DolphinScheduler的主要角色如下：MasterServer采用分布式无中心设计理念，MasterServer主要负责DAG任务切分、任务提交、任务监控，并同时监听其它MasterServer和WorkerServer的健康状态。WorkerServer也采用分布式无中心设计理念

工作流调度 style margin-left text-align 大数据

数仓实践丨常量标量子查询做全连接导致整体慢

本文分享自华为云社区《GaussDB(DWS)性能调优：常量标量子查询做全连接导致整体慢》，作者：Zawami。问题描述由于SQL中存在标量子查询同另一查询做笛卡尔积使SQL整体慢。标量子查询，即结果集只有一行一列的子查询。这里导致的SQL语句执行慢不只是在于做笛卡尔积慢，也会使后续聚合更慢。原始语句WITHTMPAS(SELECTcasewhenlength('[“202309“]')=6then'[“202309“]'||'01'WHENlength('[“202309“]')8THENTO_CHAR(CURRENT_DATE,'YYYYMMDD')ENDASV_DATEfromDUAL)

全连常量 span color style 其他数据库

数仓性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路

本文分享自华为云社区《GaussDB(DWS)性能调优：row_number()over(p)-rn=1性能瓶颈发现和改写套路》，作者：Zawami。1、改写场景本套路应用于子查询中含有row_number()over(partitionbyorderby)rn，并仅把rn列用于分类排序后筛选最大值的场景。2、性能分析GaussDB中SQL语句的执行很多时候是流式的，即对每一条数据进行流水加工，各层算子同时在执行，缩短执行耗时。但是在一些场景下，需要先取得前一个算子的全部结果集，然后才能够进行下一步的加工；窗口函数就是其中的一种。观察执行计划可以看到，SQL会在计算得到rn列后，再同本层查询其

性能套路 span color style 其他数据库

1 2 345 6 7