jjzjj

hadoop - Apache HAWQ 生产使用

我不知道还有什么地方可以问这个问题,所以我会在这里问,因为我认为这可以为future可能有类似问题的用户提供一个很好的引用。ApacheHAWQ是否有任何已知的生产用途(http://hawq.incubator.apache.org/)?我想将这项服务与Presto、Spark、Impala等其他服务进行比较。但除了漂亮的基准测试之外,我还没有发现它在现实世界中的任何用法。最后,如果您亲自使用过它,您的使用体验如何? 最佳答案 目前apachehawq没有独立的文档。但是社区正在将文档从pivotalhdb转移到apachehaw

hadoop - Greenplum报错-输入路径不存在

我们有小型gpdb集群。当我尝试使用来自gpdbmaster的'gphdfs'协议(protocol)读取外部表时。环境产品版本关键Greenplum(GPDB)4.3.8.2操作系统Centos6.5获取错误:prod=#select*fromext_table;ERROR:externaltablegphdfsprotocolcommandendedwitherror.16/10/0514:42:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-jav

hadoop - 如何将HAWQ中的数据推送到GREENPLUM中?

我有一个反复无常的客户,他想在经过一些预处理后将数据从HAWQ推送到GREENPLUM。有什么办法吗?如果没有,是否可以在greenplum中创建一个外部表,从运行HAWQ的HDFS中读取它?我们将不胜感激。 最佳答案 您可以做的最简单的事情-使用外部可写表将数据从HAWQ推送到HDFS,然后使用gphdfs协议(protocol)使用外部可读表从Greenplum读取数据。在我看来,这将是最快的选择。另一种选择是将数据存储在HDFS上的gzip压缩CSV文件中,并直接从HAWQ中使用它们。这样,当您在Greenplum中需要这些数

scala - 用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 或 HAWQ?

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能,以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark,因为我使用的是Scala,而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了,但请提供一些证据。)因此,为了与Greenplum存储层保持一致,我查看了Pivotal的HAWQ,它基本上是在Greenplum上使用SQL的Hadoop

hadoop - 关键 : HDFS-HAWQ - Migration to New Hardware

我们有PHD3.0版本的hadoop集群,用于5个节点,使用安装在rackspace上的ambari。我们必须迁移到Google云(GCP)。但没有得到步骤如何进行以下操作Q1:如何将数据、元数据配置从旧机器迁移到新机器。(旧机器版本是cantos6.5目标机器版本是centos6.5)Q2:要备份哪些组件和文件夹?命令是什么?Q3:如何备份nameode和datanodes?Q4:ambari数据库也需要备份吗?如有任何帮助,我们将不胜感激? 最佳答案 我个人更喜欢在GCP中配置hadoop集群,并使用distcp将数据移动到新集

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

hadoop - 向hawq插入流数据

如何将流式数据插入hawq并对在线数据进行查询。我测试了jdbc插入,但性能很差。之后,我测试了使用flume将数据写入hdfs并在hawq中创建了外部表,但是在flume关闭文件之前hawq无法读取数据。问题是,如果几天后文件数量增加,我将flume文件滚动设置得非常低(1分钟),这对hdfs不利。第三个解决方案是hbase,但是因为我的大部分查询都是对许多数据的聚合,所以hbase不是一个好的解决方案(hbase适合获取单个数据)。那么在这些限制条件下,用hawq在线查询流式数据有什么好的方案呢? 最佳答案 如果您的源数据不在h

hadoop - 来自 Ambari 的 HAWQ 服务检查失败

我们有小型Hadoop-Hawq集群。在那,当我执行HAWQ服务的检查时,从属主机服务失败。从AmbariUI获取以下错误:**stderr:**Traceback(mostrecentcalllast):File"/var/lib/ambari-agent/cache/stacks/PHD/3.0/services/HAWQ/package/scripts/service_check.py",line9,inHAWQServiceCheck().execute()File"/usr/lib/python2.6/site-packages/resource_management/lib

hadoop - 建立在 HDFS 之上的 Apache HAWQ 安装

我想安装基于Hadoop的ApacheHAWQ。在安装HAWQ之前,我应该安装Hadoop并配置我所有的节点。我有四个节点如下,我的问题是一样的。我应该为hawq-master安装一个hadoop发行版吗?1.hadoop-master//namenode,SecondaryNamenode,ResourceManager,HAWQStandby,2.hawq-master//HAWQMaster3.datanode01//Datanode,HAWQSegment4.datanode02//Datanode,HAWQSegment如上我在节点旁边写了每个节点的作用。在我看来,我应该为h

postgresql - 关于 hawq pxf 访问 hdfs 上的文件数据

在我部署了hdfs、mapreduce、hawq、pxf和ambari之后,我使用impala-tpcds-kits在hdfs上生成了大约10G数据。但是当我用用户postgres登录Postgres时,我不能使用命令行CREATEEXTERNALTABLE来索引hdfs上的数据。当我使用psqlhelp命令时,没有关键字CREATEEXTERNALTABLE。不知道为什么?Lastlogin:ThuAug2515:08:152016from192.168.1.50[root@hadoop-m-21~]#supostgresbash-4.1$psqlpsql(8.4.20)Type"h