数仓_JJZJJ

详解如何在数仓中搭建细粒度容灾应用

本文分享自华为云社区《GaussDB(DWS)细粒度容灾使用介绍》，作者：天蓝蓝。1.前言适用版本：【8.2.1.210及以上】当前数仓承载的客户业务越来越多，从而导致客户对于数仓的可靠性要求不断增加。尤其在金融领域，容灾备份机制是信息系统必须提供的能力之一。本文介绍了在云上环境的双集群(不跨Region不跨VPC)后台手动部署并使用细粒度容灾的主要步骤，使得用户能快速方便得搭建起细粒度容灾。2.细粒度容灾简介对于MPPDB集群的容灾而言，目前业界的常见方案要么是部署两套规格配置同等的集群，要么通过逻辑双加载方式去实现，这两个方案缺点比较明显，存在架构复杂、建设成本高等问题，不仅使得灾备部署难

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

一、目的经过6个月的奋斗，项目的离线数仓部分终于可以上线了，因此整理一下离线数仓的整个流程，既是大家提供一个案例经验，也是对自己近半年的工作进行一个总结。二、项目背景项目行业属于交通行业，因此数据具有很多交通行业的特征，比如转向比数据就是统计车辆左转、右转、直行、掉头的车流量等等。三、业务需求（一）预估数据规模（二）指标查询频率指标的实时查询由Flink实时数仓计算，离线数仓这边提供指标的T+1的历史数据查询四、数仓技术架构（一）简而言之，数仓模块的数据源是Kafka，终点是ClickHouse数据库第一步，用kettle采集Kafka的数据写入到HDFS中；第二步，在Hive中建数仓，ODS

数仓项目6.0配置大全（hadoop/Flume/zk/kafka/mysql配置）

配置背景我使用的root用户，懒得加sudo所有文件夹在/opt/module所有安装包在/opt/software所有脚本文件在/root/bin三台虚拟机：hadoop102-103-104分发脚本fenfa，放在~/bin下,chmod777fenfa给权限#!/bin/bash#1.判断参数个数if[$#-lt1]thenechoXXXXXXXXXNoArguementXXXXXXXXX!exit;fi#2.遍历集群所有机器forhostinhadoop103hadoop104doecho====================$host====================#3.遍

【华为云-云驻共创】数据高速公路—数仓集群通信技术详解

【摘要】本文讲解GaussDB（DWS）集群通信技术如何在大规模集群中承载高并发业务，如何实现高性能分布式通信系统。主要讲述客户端、CN、DN三类进程间的通信原理和流程，分为CN通信框架和DN间通信框架。数据仓库服务GaussDB（DWS）是一种基于华为云基础架构和平台的在线数据分析处理数据库，提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB（DWS）是基于华为融合数据仓库GaussDB产品的云原生服务，兼容ANSI/ISO标准的SQL92、SQL99和SQL2003语法，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

文章目录什么是数仓仓库建模？ER模型三范式维度建模事实表事实表类型维度表维度表类型数仓分层ODS源数据层ODS层表示例DWD明细数据层DWD层表示例DIM公共维度层DIM层表示例DWS数据汇总层DWS层表数据ADS数据应用层ADS层接口示例数仓分层的优势什么是数仓仓库建模？数据仓库建模（DataWarehouseModeling）是指在数据仓库（DataWarehouse）中组织和设计数据的过程，以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储，用于存储来自不同来源的数据，经过清洗、转换和集成，以支持业务分析和决策。主要目标是创建一个能够满足用户需求的数据结构，以便用

【大数据】Doris 数仓使用规范原则

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】不要使用AutoBucket，按照自己的数据量来进行分区分桶，这样你的导入及查询性能都会得到很好的效果，AutoBucket会造成tablet数量过多，造成大量小文件的问题。【强制】5亿以上的数据必须设置分区分

数仓开发

数仓开发一.数仓分层1.为什么要分层？清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。数据血缘追踪：如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。统一数据口径：通过数据分层，提供统一的数据出口，统一对外输出的数据口径。屏蔽业务的影响：不必改一次业务就需要重新接入数据。屏蔽原始数据的异常：不论是数据的异常还是数据敏感性，使真实数据与统计数据解耦开。2.三层设计（ODS,DW,ADS）2.1数据运营层:ODS（OperationalDataStor

用户认证-Kerberos的介绍和使用(Hadoop、Hive、数仓流程、Presto、Kylin集成配置)

文章目录介绍概述基本概念认证原理优点和缺点安装和使用安装Kerberos相关服务修改配置文件初始化KDC数据库修改管理员权限配置文件启动Kerberos相关服务创建Kerberos管理员用户使用概述Kerberos数据库操作Kerberos认证操作创建Hadoop系统用户HadoopKerberos配置(※)为Hadoop各服务创建Kerberos主体（Principal）修改Hadoop配置文件配置HDFS使用HTTPS安全传输协议配置Yarn使用LinuxContainerExecutor安全模式下启动Hadoop集群修改特定本地路径权限启动HDFS修改HDFS特定路径访问权限启动Yarn

数仓调优实践丨SQL改写消除相关子查询

本文分享自华为云社区《【调优实践】SQL改写消除相关子查询》，作者：门前一棵葡萄树。一、子查询GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。子查询SubQuery：对应于查询解析树中的范围表RangeTblEntry，更通俗一些指的是出现在FROM语句后面的独立的SELECT语句。子链接SubLink：对应于查询解析树中的表达式，更通俗一些指的是出现在where/on子句、targetlist里面的语句。1.1非相关子查询子查询的执行不依赖于外层父查询的任何属性值。这样子查询具有独立性，可独自求解，形成一个子查询计划先于外层的查询求解。示例：sel

01数仓平台 Hadoop介绍与安装

Hadoop概述Hadoop是数仓平台的核心组件。在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。Hadoop3.x在架构上没有变化。HDFS架构概述HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。包含NameNode（NN）、DataNode（DN）和SecondaryNameNode（2NN）。NameNode：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以