jjzjj

HiveSQL日期 本月 | 上月 | 本季度 | 上季度(已验证)

运行日期当天selectcurrent_date()--2023-04-11selectdate_sub(current_date(),1)--2023-04-10【T跑T-1日期分区时用到】本月1号selectdate_format(trunc(current_date(),'MM'),'yyyyMMdd')--20230401--如果跑数当天是2023-05-01,那么用上面一条SQL跑出的结果是5月1号,业务跑数逻辑应该取4月1,所以需要date_subselectdate_format(trunc(date_sub('2023-05-01',1),'MM'),'yyyyMMdd')--

HiveSQL在使用聚合类函数的时候性能分析和优化详解

概述前文我们写过简单SQL的性能分析和解读,简单SQL被归类为select-from-where型SQL语句,其主要特点是只有map阶段的数据处理,相当于直接从hive中取数出来,不需要经过行变化。在非多个节点的操作上,其性能甚至不比Tez和Spark差。而这次我们主要说的是使用聚合类函数的hiveSQL,这类SQL需要完整的map阶段和reduce阶段才能完成数据处理。我们把它可以归类为select-aggr_function-from-where-groupby类型SQL语句。在生产环境中我们一般常用的聚合函数见如下列表:函数参数格式解释countcount(*),count(expr),

hiveSql正则方式提取字段中的内容

文章目录hiveSql正则方式提取字段中的内容1.示例hiveSql正则方式提取字段中的内容通过regexp_extract(stringsubject,stringpattern,intindex)UDF完成函数:regexp_extract(stringsubject,stringpattern,intindex)返回结果:string使用说明:返回pattern提取的字符串。param1:要匹配的字符串(非字符串也可以)或字段param2:正则表达式param3:是JavaregexMatchergroup()方法索引,表示要返回的部分。0表示把整个正则表达式对应的结果全部返回。例如,r

hivesql

参考资料:https://dblab.xmu.edu.cn/blog/1005/1、Hive数据导入(1)将small_user.csv文件导入到hive中(2)根据导入数据格式特征,创建名为user的外部表createexternaltableifnotexistsusers(user_idstring,item_idstring,behaviour_typestring,user_geohashstring,item_categoryint,timestring)rowformatdelimitedfieldsterminatedby',';loaddatainpath'file:///h

HiveSql一天一个小技巧:利用array_contains()函数进行容器存在性计数问题分析

0需求描述文章被引用关系数据表如下:idoid10203141526073其中id表示文章id,oid引用的文章,当oid为0时表示当前文章为原创文章,求原创文章被引用的次数。注意本题不能用关联的形式求解1需求分析1.1数据源准备withdataas(select1asid,0asoidunionallselect2asid,0asoidunionallselect3asid,1asoidunionallselect4asid,1asoidunionallselect5asid,2asoidunionallselect6asid,0asoidunionallselect7asid,3asoid

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。问题1:那么什么是hive向量化模式呢?问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢?问题3:如何查看hive向量化使用的相关信息?1.什么是hive向量化模式hive向量化模式是hive的一个特性,也叫hive矢量化,在没有引入向量化的执行模式之前,一般的查询操作一次只处理一行数据,在向量化查询执行时一次处理1024行的块来简化系统底层的操作,提高了数据处理的性能。在底层,hive提供的向量模式,并不是重写了Mapper函数,而是通过实现inputformat接口,

漫谈大数据 - HiveSQL总结(二)查询操作

    导语:HiveSQL各关键字详解,hive函数大全,类似于个人记录工具书,后续遇到其他的也会继续加进来。有关hive库表操作请见上篇:漫谈大数据-HiveSQL总结(一)库表操作_昊昊该干饭了的博客-CSDN博客针对hive各种数据库操作,内部表、外部表、分区表、分桶表的表属性查看修改操作以及hive数据的导入与导出详解。https://blog.csdn.net/qq_52213943/article/details/130287680?spm=1001.2014.3001.5501hive简介:    hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是

hiveSql冷门但好用函数 --持续更新

hiveSql常用函数字符串函数to_jsonstr_to_mapjson_tupletranslatefind_in_setinstr和locaterepeatarray_distinct日期函数next_day字符串函数to_json将STRUCT类型的数据转化为json格式字符串,此处需要另外学习一个named_struct()函数:自定义结构化数据的KVnamed_struct(k1,v1,k2,v2…)示例:selectnamed_struct("name","csdn","addr","beijing","age",12)结果to_json(结构化参数)示例selectto_jso

HiveSQL大厂面试 各个视频的平均完播率

题目说明练习题目来自牛客网sq在线编程大厂面试题各个视频的平均完播率_牛客题霸_牛客网(nowcoder.com)测试用例createdatabasenk_test;//创建数据库usenk_test;//进入数据库//创建表DROPTABLEIFEXISTStb_user_video_log;DROPTABLEIFEXISTStb_video_info;CREATETABLEtb_user_video_log(idINT,uidINT,video_idINT,start_timetimestamp,end_time,if_followTINYINT,if_likeTINYINT,if_ret

HiveSQL大厂面试 各个视频的平均完播率

题目说明练习题目来自牛客网sq在线编程大厂面试题各个视频的平均完播率_牛客题霸_牛客网(nowcoder.com)测试用例createdatabasenk_test;//创建数据库usenk_test;//进入数据库//创建表DROPTABLEIFEXISTStb_user_video_log;DROPTABLEIFEXISTStb_video_info;CREATETABLEtb_user_video_log(idINT,uidINT,video_idINT,start_timetimestamp,end_time,if_followTINYINT,if_likeTINYINT,if_ret