成都云览科技有限公司倾力打造了凤凰浏览器,专注于为海外用户提供服务,公司致力于构建一个全球性的数字内容连接入口,为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司,从数据中挖掘价值一直是公司核心任务,公司以前选用了众多组件来提升内部大数据分析效率,如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询,但经过长期实践,最终决定将所有内部数据分析平台统一至StarRocks。而且,社区在3.0.0版本中发布了存算分离能力,与公司内部大数据平台部门正在推动的降本增效理念非常契合,部门也在第一时间测试验证,确定评测各方面满足业务需求后,已经开始
2023年12月7日,作为KubeSphere的合作伙伴,Databend荣幸地受邀参与了KubeSphere社区主办的云原生技术直播活动。本次活动的核心议题为「Databend云数仓与DatabendPlayground扩展组件介绍」,此次分享由DatabendLabs的研发工程师尚卓燃担任主讲嘉宾,向与会者呈现了一场内容丰富的在线分享会。大纲回顾什么是DatabendDatabend是一款使用Rust研发的新一代云原生数据仓库,完全面向云架构并基于对象存储构建。它具备即时扩缩容能力,能够在数分钟内增加数百倍的算力,为企业提供了一个基于对象存储、湖仓一体化、计算和存储分离的大数据管理和分析集
摘要:gdb确认是否安装,所带来的该工具用户数据库实例触发core问题后集群状态反复异常,对此问题及时分析根因并及时进行规避。本文分享自华为云社区《主动预防-DWS关键工具安装确认》,作者:上官寒雨。【关键工具确认】1、gdb确认是否安装(该工具用户数据库实例触发core问题后集群状态反复异常,对此问题及时分析根因并及时进行规避)登录任意集群节点执行以下命令(HC/HCS/HCSO环境登录沙箱外执行):gdb--help提示以下信息则已安装2、gstack是否安装(与gdb关联工具,gdb安装后此工具会默认安装,作用与gdb相同)登录任意集群节点执行以下命令(HC/HCS/HCSO环境登录沙箱
本文分享自华为云社区《根据执行计划优化SQL【绽放吧!GaussDB(DWS)云原生数仓】》,作者:西岭雪山。引言如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY"到底代表什么意思?我们看官网的描述是代表这执行计划已经CN直接将原语句下发到DN,各DN单独执行,并将执行结果在CN上进行汇总。且不需要做过多的调整了,真的是这样吗?FQS计划,完全下推两表JOIN,且其连接条件为各表的分布列,在关闭stream算子的情况下,CN会直接将该语句发送至各DN执行,最后结果在CN汇总。SETenable_stream_operator=off;SETexplain_perf_mo
本文分享自华为云社区《GaussDB(DWS)性能调优:求字段全体值中大于本行值的最小值——多次关联发散导致数据爆炸案例分析改写》,作者:Zawami。1、【问题描述】 语句中存在同一个表多次自关联,且均为发散关联,数据爆炸导致性能瓶颈。2、【原始SQL】explainverboseWITHTMPAS(SELECTWH_ID,(IFNULL(SUBSTR(THE_DATE,1,10),'1900-01-01')||''||STOP_TIME)::TIMESTAMPASSTOP_TIME,(IFNULL(SUBSTR(THE_DATE,1,10),'1900-01-01')||''||'23:5
【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍:二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段3.dataX脚本三、利用Python自动生成Datax的json脚本1.创建mysql和hive数据库2.修改python脚本里面的密码(2处)和hdfs端口3.运行python脚本4.将生成的json文件上传到linux5.编写shell脚本b.sh6.运行shell一、mysql全量导入hive[分区表]需求介绍:本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时
版本20231116要理解数据的质量管理,应具备hive数据仓库的相关知识文章目录1.理解什么是数据的质量管理:2.数据质量管理的规划数据质量标准的分类3.数据质量管理解决方案1.ods层的数据质量校验1)首先在hive上建立一个仓库,添加数据质量监控表2)然后建立检查检查表3)创建数据检验曾量表通用的脚本4)创建数据检测全量表的脚本5)脚本的运行2.dwd层的数据质量校验1)建立dwd层校验表2)编写数据检测脚本3.dws-dwt层数据校验4.ads层数据校验1)建立ads校验表2)编写数据检测脚本1.理解什么是数据的质量管理:数据的质量管理,表现保障在数据的健康性,即满足消费者期望程度,体
第1章DolphinScheduler简介1.1DolphinScheduler概述ApacheDolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。1.2DolphinScheduler核心架构DolphinScheduler的主要角色如下:MasterServer采用分布式无中心设计理念,MasterServer主要负责DAG任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。WorkerServer也采用分布式无中心设计理念
本文分享自华为云社区《GaussDB(DWS)性能调优:常量标量子查询做全连接导致整体慢》,作者:Zawami。问题描述由于SQL中存在标量子查询同另一查询做笛卡尔积使SQL整体慢。标量子查询,即结果集只有一行一列的子查询。这里导致的SQL语句执行慢不只是在于做笛卡尔积慢,也会使后续聚合更慢。原始语句WITHTMPAS(SELECTcasewhenlength('[“202309“]')=6then'[“202309“]'||'01'WHENlength('[“202309“]')8THENTO_CHAR(CURRENT_DATE,'YYYYMMDD')ENDASV_DATEfromDUAL)
本文分享自华为云社区《GaussDB(DWS)性能调优:row_number()over(p)-rn=1性能瓶颈发现和改写套路》,作者:Zawami。1、改写场景本套路应用于子查询中含有row_number()over(partitionbyorderby)rn,并仅把rn列用于分类排序后筛选最大值的场景。2、性能分析GaussDB中SQL语句的执行很多时候是流式的,即对每一条数据进行流水加工,各层算子同时在执行,缩短执行耗时。但是在一些场景下,需要先取得前一个算子的全部结果集,然后才能够进行下一步的加工;窗口函数就是其中的一种。观察执行计划可以看到,SQL会在计算得到rn列后,再同本层查询其