我试图将数据从 SQL 数据库迁移到 Hadoop。我已经通过配置 Hive、HBase 和 Hadoop 成功地做到了这一点。
我的问题是,我将 Birt & Tableau 与我的 SQL 数据库一起使用,并且能够在 5-10 分钟内加载 1000 万条数据,但我新配置的 Hadoop、Hive 和 HBase 系统需要大约 50 分钟才能获取 1000 万条条目. 我怎样才能提高这种性能?
Hadoop是专门为海量数据处理而开发的,为什么我做不到?
性能有什么特殊配置吗?
最佳答案
经过大量研究并为了回答这个问题,我也通过了 HDP。然后我遇到一个场景,我们无法比较 SQL Db 和 Hadoop 的性能,因为两者的用途不同。
此外,只有在数据超过数 TB 的限制(即 SQL 数据库发生故障的情况)后,Hadoop 才会显示其性能。因此,如果应该先检查是否为应用程序会更好。如果对性能有要求,选择Hadoop不是一个好的选择;去SQL数据库。但是,如果应用程序将拥有大量数据,则必须在 SQL DB 失败的情况下对如此庞大的数据进行分析;在这种情况下,Hadoop 很流行。
关于hadoop - Tableau、Hadoop 和 Birt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33901054/
1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模
目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和
云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下: 一、更新apt和安装vim编辑器 二、配置本机无密码登录SSH 三、安装JAVA环境 四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim
一、设置免密登录1、系统偏好设置-----共享----勾选远程登录,所有用户2、打开终端,输入命令ssh-keygen-trsa,一直回车即可2.查看生成的公钥和私钥 cd~/.ssh ls会看到~/.ssh目录下有两个文件:①私钥:id_rsa②公钥:id_rsa.pub3.将公钥内容写入到~/.ssh/authorized_keys中 cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys4.测试在terminal终端输入 sshlocalhost如果出现以下询问输入yes,不需要输入密码就能登录,说明配置成功Areyousureyouw
博学之,审问之,慎思之,明辨之,笃行之🏂hiveonspark搭建好后,任务提交会有问题,因为通过hive会话提交的任务一直存在且不会结束(除非关掉这个hive会话),根本原因是这些任务提交到了Yarn的同一个队列中,前面的任务没有执行完毕后面的任务不会执行,所以解决办法是增加一个Yarn队列,指定任务提交的队列,这样就不会出现任务的阻塞。目录一、情景复现二、原因三、Yarn队列配置—增加队列1.情景复现:搭建好hiveonspark后,在命令行直接进入hive会话,提交任务后,在ResourceManager上jps查看进程可以看到有个进程ApplicationMaster一直存在,打开Re
目录SparkStreaming的核心是DStream一、DStream简介二.DStream编程模型三.DStream转换操作SparkStreaming的核心是DStream一、DStream简介1.Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。二.DStream编程模型三.DStream转换操作transform()1.在3个节点启动zookeeper集群服务$zkServer.shstart2.启动kafka(3个节点都要)$/opt/module/k
问题:如何通过javascript-API存储并稍后检索TableauView的自定义状态?描述:我在一个网站上工作,我们目前允许任何用户将一组TableauView协作到类似PowerPoint的在线演示中供以后使用。在我们当前的实现中,Tableau图表的状态未被存储,因此用户每次都必须在按住演示文稿的同时应用他或她所需的过滤器、选择工作表等。这是我们现在想要避免的。最简单的解决方案是存储和检索通过底部栏界面访问的“共享”链接之一;这些链接包含当前View的状态,但到目前为止,我们无法做到这一点:首先,由于域问题,我们不能简单地从嵌入代码iframe中获取共享链接;其次,API方法
我是一名尝试将Tableau可视化嵌入到我的网页中的初学者,这样只要单击链接,就会在页面上呈现可视化。但是浏览器加载tableauSoftware对象时出现错误。我该如何初始化这个对象?我使用的是TableauServer试用版functioninitializeViz(){varplaceholderDiv=document.getElementById("tableauViz");varurl2="http://localhost:85/views/test_page/Sheet1?:embed=y&:display_count=no";viz=newtableauSoftware
目录基本语法一、上传二、下载三、其他增删改查操作3.1增3.2删3.3改3.4查基本语法hadoopfs和 hdfsdfs(hadoopfs和hdfsdfs命令等效。)-hdfs dfs只能操作HDFS文件系统-hadoopfs可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广[root@hadoop102hadoop-3.1.3]$bin/hadoopfs[-appendToFile...][-cat[-ignoreCrc]...][-chgrp[-R]GROUPPATH...][-chmod[-R]PATH...][-chown[-R][OWNER][:[GROUP]]PATH..
我正在为HDFS中的写入实现一个数据节点故障转移,当block的第一个数据节点发生故障时,HDFS仍然可以写入一个block。算法是。首先,将识别故障节点。然后,请求一个新block。HDFSportapi提供了excludeNodes,我用它来告诉Namenode不要在那里分配新的block。failedDatanodes被识别为失败的数据节点,它们在日志中是正确的。req:=&hdfs.AddBlockRequestProto{Src:proto.String(bw.src),ClientName:proto.String(bw.clientName),ExcludeNodes:f