数仓

带你走进数仓大集群内幕丨详解关于作业hang及残留问题定位

本文分享自华为云社区《【带你走进DWS大集群内幕】大集群通信：作业hang、残留问题定位》，作者：雨落天穹丶。前言：测试过程中，我们会遇到这样一种情况，我的作业都执行很久了，为啥还不结束，是不是作业hang掉了？或者说，明明看到CN上的作业都没了，为什么通过全局视图发现DN上还有作业在执行而没有退出，这是不是有问题啊？那么就带着这样的疑问点来阅读本篇分析问题的方式方法，给初学者一点定位思路。【通信系统视图】pgxc_comm_send_stream：展示所有DN上的通信库发送流状态。pgxc_comm_recv_stream：展示所有DN上的通信库接收流状态。pg_thread_wait_st

集群残留 span color style 其他数据库

带你认识数仓的监控系统TopSQL

本文分享自华为云社区《GaussDB(DWS)TopSQL总结》，作者：nullptr_。TopSQL背景TopSQL为DWS的监控系统，记录DWS中各个作业、算子级别的资源使用数据、耗时数据，包括下盘信息、内存、网络、耗时、警告、基础信息等作业执行的数据。TopSQL简介TopSQL分为实时表和历史表，实时表主要展示系统当前的负载情况，历史表主要用于存储作业执行的历史情况。历史表主要用于历史问题的分析回溯和问题定位、实时表主要用来展示当前系统中作业执行情况，让系统现场更加直观，为运维工作带来了极大的方便。TopSQL功能介绍主要视图前提条件（参数介绍）enable_resource_trac

监控系统监控 img huaweicloud 记录其他数据库

数仓学习---15、数据仓库工作流调度

1、数据仓库工作流调度1.1调度工具部署工具部署链接1.2新数据生成1.2.1用户行为日志1、启动日志采集通道，包括Kafka、Flume等（1）启动Zookeeperzk.shstart（2）启动Kafkakf.shstart（3）启动Flumef1.shstartf2.shstart2、修改日志模拟器配置文件修改hadoop102和hadoop103两台节点中的/opt/module/applog/application.yml文件，修改mock.date参数如下。mock.date:"2020-06-15"3、执行日志生成脚本lg.sh4、观察HDFS上是否有2020-06-15的日志数

工作流调度 xff 插入 img 学习数据仓库大数据

腾讯云对象存储联合DataBend云数仓打通数据湖和数据仓库

随着数字化进程不断深入，数据呈大规模、多样性的爆发式增长。为满足更多样、更复杂的业务数据处理分析的诉求，湖仓一体应运而生。在Gartner发布的《HypeCycleforDataManagement2021》中，湖仓一体（Lakehouse）首次被纳入到技术成熟度曲线中。伴随多场景的成功落地，腾讯云对象存储打造基于云技术的湖仓一体解决方案。将数据仓库构建在数据湖上，打通数据仓库和数据湖两套体系，构建以数据湖为中心，融合数据仓库、大数据、AI等技术的生态体系，既有数据湖的灵活性和可扩展性，又有数据仓库的数据管理功能。腾讯云对象存储打造开放的湖仓一体解决方案，与业界优秀的云数仓DatabendCl

数据腾讯 xff xff0c 腾讯云数据仓库 spark

数仓现网案例丨超大结果集接收异常

本文分享自华为云社区《GaussDB(DWS)现网案例之超大结果集接收异常》，作者：你是猴子请来的救兵吗。问题背景内核版本 GaussDB8.1.3问题描述用户使用数据库客户端工具如navicat、dbeaver等执行查询语句异常中断，中断信息"Lastreadmessagesequence%disnotequaltothemaxwrittenmessagesequence%d"问题定位客户端异常中断后有些错误信息时不感知的，此时topsql就派上了用场。历史topsql记录了查询作业运行结束时的资源使用情况(包括内存、下盘、CPU时间等)和运行状态信息(包括报错、终止、异常等)以及性能告警

超大接收发送数据客户端其他数据库

数仓之hive自定义UDTF函数详解

学习目录一、自定义UDTF函数一、自定义UDTF函数1.说明文档AcustomUDTFcanbecreatedbyextendingtheGenericUDTFabstractclassandthenimplementingtheinitialize,process,andpossiblyclosemethods.TheinitializemethodiscalledbyHivetonotifytheUDTFtheargumenttypestoexpect.TheUDTFmustthenreturnanobjectinspectorcorrespondingtotherowobjectstha

自定详解 span class token hive 大数据 spark

数仓之hive自定义UDTF函数详解

自定详解 span class token hive 大数据 spark

Hive+Spark离线数仓工业项目--ODS层及DWD层构建（2）

ODS层构建：代码导入目标：实现Python项目代码的导入及配置实施 Oracle本地驱动目录**：将提供的**instantclient_12_2**目录放入D盘的根目录下 PyHive本地连接配置：将提供的CMU目录放入C盘的根目录下auto_create_hive_table包创建路径包 -在datatohive的init文件中放入如下代码 -其他包的init都放入如下内容将对应的代码文件放入对应的包或者目录中 step1：从提供的代码中复制config、log、resource这三个目录直接粘贴到**auto_create_hive_table**包下 step2

构建项目 xff1 strong xff1a hive spark 大数据数仓工业项目数据仓库

数仓性能调优：大宽表关联MERGE性能优化

摘要：本文主要为大家讲解在数仓性能调优过程中，关于大宽表关联MERGE性能优化过程。本文分享自华为云社区《GaussDB(DWS)性能调优：大宽表关联MERGE性能优化》，作者：譡里个檔。【业务背景】如下MERGE语句执行耗时长达2034sMERGEINTOsdifin.hah_ae_line_sr_t_02_8663Event_1u18olrUSING(WITHEvent_1ix1dznAS(SELECT"sr38","sr39","sr40","sr41","sr42","sr43","sr44","sr45","sr46","sr47","sr48","sr49","sr50","sr5

性能关联 span color style 其他数据库

企业数据治理实战总结--数仓面试必备

文章整理自涤生大数据老师宇哥，宇哥是历任中国电信，平安银行，微众银行，众安保险等多家公司擅长大数据求职面试，数仓开发管理，数据治理，数据质量等工作，主导过相关平台的建设1 数据治理的背景在数据建设过程中，业务人员和数据开发人员在日常使用数据的过程中还是能感受到一些痛点的，主要的表现：第一，数据资产缺乏盘点。当前核心系统的主要数据已经采集到数据仓库，但是在日常的业务分析中经常需要向业务系统了解需要用到的数据在哪里。总得来看对数据资产还是缺乏整体盘点，公司主要有哪些数据，都分布在哪些系统中，哪些数据已经采集到数仓，哪些还没有入库，还有待进一步梳理。第二，数据标准化建设不足。数据标准会贯穿数据管理的

实战治理 xff0c xff0 数据面试数据挖掘大数据

5 6 789 10 11