本文分享自华为云社区《GaussDB(DWS)细粒度容灾使用介绍》,作者:天蓝蓝。1.前言适用版本:【8.2.1.210及以上】当前数仓承载的客户业务越来越多,从而导致客户对于数仓的可靠性要求不断增加。尤其在金融领域,容灾备份机制是信息系统必须提供的能力之一。本文介绍了在云上环境的双集群(不跨Region不跨VPC)后台手动部署并使用细粒度容灾的主要步骤,使得用户能快速方便得搭建起细粒度容灾。2.细粒度容灾简介对于MPPDB集群的容灾而言,目前业界的常见方案要么是部署两套规格配置同等的集群,要么通过逻辑双加载方式去实现,这两个方案缺点比较明显,存在架构复杂、建设成本高等问题,不仅使得灾备部署难
一、目的经过6个月的奋斗,项目的离线数仓部分终于可以上线了,因此整理一下离线数仓的整个流程,既是大家提供一个案例经验,也是对自己近半年的工作进行一个总结。二、项目背景项目行业属于交通行业,因此数据具有很多交通行业的特征,比如转向比数据就是统计车辆左转、右转、直行、掉头的车流量等等。三、业务需求(一)预估数据规模(二)指标查询频率指标的实时查询由Flink实时数仓计算,离线数仓这边提供指标的T+1的历史数据查询四、数仓技术架构(一)简而言之,数仓模块的数据源是Kafka,终点是ClickHouse数据库第一步,用kettle采集Kafka的数据写入到HDFS中;第二步,在Hive中建数仓,ODS
配置背景我使用的root用户,懒得加sudo所有文件夹在/opt/module所有安装包在/opt/software所有脚本文件在/root/bin三台虚拟机:hadoop102-103-104分发脚本fenfa,放在~/bin下,chmod777fenfa给权限#!/bin/bash#1.判断参数个数if[$#-lt1]thenechoXXXXXXXXXNoArguementXXXXXXXXX!exit;fi#2.遍历集群所有机器forhostinhadoop103hadoop104doecho====================$host====================#3.遍
【摘要】本文讲解GaussDB(DWS)集群通信技术如何在大规模集群中承载高并发业务,如何实现高性能分布式通信系统。主要讲述客户端、CN、DN三类进程间的通信原理和流程,分为CN通信框架和DN间通信框架。数据仓库服务GaussDB(DWS)是一种基于华为云基础架构和平台的在线数据分析处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS)是基于华为融合数据仓库GaussDB产品的云原生服务,兼容ANSI/ISO标准的SQL92、SQL99和SQL2003语法,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。
文章目录什么是数仓仓库建模?ER模型三范式维度建模事实表事实表类型维度表维度表类型数仓分层ODS源数据层ODS层表示例DWD明细数据层DWD层表示例DIM公共维度层DIM层表示例DWS数据汇总层DWS层表数据ADS数据应用层ADS层接口示例数仓分层的优势什么是数仓仓库建模?数据仓库建模(DataWarehouseModeling)是指在数据仓库(DataWarehouse)中组织和设计数据的过程,以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储,用于存储来自不同来源的数据,经过清洗、转换和集成,以支持业务分析和决策。主要目标是创建一个能够满足用户需求的数据结构,以便用
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。 命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用AutoBucket,按照自己的数据量来进行分区分桶,这样你的导入及查询性能都会得到很好的效果,AutoBucket会造成tablet数量过多,造成大量小文件的问题。【强制】5亿以上的数据必须设置分区分
数仓开发一.数仓分层1.为什么要分层?清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据血缘追踪:如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径。屏蔽业务的影响:不必改一次业务就需要重新接入数据。屏蔽原始数据的异常:不论是数据的异常还是数据敏感性,使真实数据与统计数据解耦开。2.三层设计(ODS,DW,ADS)2.1数据运营层:ODS(OperationalDataStor
文章目录介绍概述基本概念认证原理优点和缺点安装和使用安装Kerberos相关服务修改配置文件初始化KDC数据库修改管理员权限配置文件启动Kerberos相关服务创建Kerberos管理员用户使用概述Kerberos数据库操作Kerberos认证操作创建Hadoop系统用户HadoopKerberos配置(※)为Hadoop各服务创建Kerberos主体(Principal)修改Hadoop配置文件配置HDFS使用HTTPS安全传输协议配置Yarn使用LinuxContainerExecutor安全模式下启动Hadoop集群修改特定本地路径权限启动HDFS修改HDFS特定路径访问权限启动Yarn
本文分享自华为云社区《【调优实践】SQL改写消除相关子查询》,作者:门前一棵葡萄树。一、子查询GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。子查询SubQuery:对应于查询解析树中的范围表RangeTblEntry,更通俗一些指的是出现在FROM语句后面的独立的SELECT语句。子链接SubLink:对应于查询解析树中的表达式,更通俗一些指的是出现在where/on子句、targetlist里面的语句。1.1非相关子查询子查询的执行不依赖于外层父查询的任何属性值。这样子查询具有独立性,可独自求解,形成一个子查询计划先于外层的查询求解。示例:sel
Hadoop概述Hadoop是数仓平台的核心组件。在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。Hadoop3.x在架构上没有变化。HDFS架构概述HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。包含NameNode(NN)、DataNode(DN)和SecondaryNameNode(2NN)。NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以