hawq

hadoop - Apache HAWQ 生产使用

我不知道还有什么地方可以问这个问题，所以我会在这里问，因为我认为这可以为future可能有类似问题的用户提供一个很好的引用。ApacheHAWQ是否有任何已知的生产用途(http://hawq.incubator.apache.org/)？我想将这项服务与Presto、Spark、Impala等其他服务进行比较。但除了漂亮的基准测试之外，我还没有发现它在现实世界中的任何用法。最后，如果您亲自使用过它，您的使用体验如何？最佳答案目前apachehawq没有独立的文档。但是社区正在将文档从pivotalhdb转移到apachehaw

hadoop - Greenplum报错-输入路径不存在

我们有小型gpdb集群。当我尝试使用来自gpdbmaster的'gphdfs'协议(protocol)读取外部表时。环境产品版本关键Greenplum(GPDB)4.3.8.2操作系统Centos6.5获取错误:prod=#select*fromext_table;ERROR:externaltablegphdfsprotocolcommandendedwitherror.16/10/0514:42:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-jav

Greenplum hadoop strong section gphdfs hawq

hadoop - 如何将HAWQ中的数据推送到GREENPLUM中？

我有一个反复无常的客户，他想在经过一些预处理后将数据从HAWQ推送到GREENPLUM。有什么办法吗？如果没有，是否可以在greenplum中创建一个外部表，从运行HAWQ的HDFS中读取它？我们将不胜感激。最佳答案您可以做的最简单的事情-使用外部可写表将数据从HAWQ推送到HDFS，然后使用gphdfs协议(protocol)使用外部可读表从Greenplum读取数据。在我看来，这将是最快的选择。另一种选择是将数据存储在HDFS上的gzip压缩CSV文件中，并直接从HAWQ中使用它们。这样，当您在Greenplum中需要这些数

GREENPLUM 送到 section HAWQ hadoop hdfs external-tables

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能，以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark，因为我使用的是Scala，而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了，但请提供一些证据。)因此，为了与Greenplum存储层保持一致，我查看了Pivotal的HAWQ，它基本上是在Greenplum上使用SQL的Hadoop

结构化 Greenplum HAWQ MapReduce scala hadoop apache-spark

hadoop - 关键 : HDFS-HAWQ - Migration to New Hardware

我们有PHD3.0版本的hadoop集群，用于5个节点，使用安装在rackspace上的ambari。我们必须迁移到Google云(GCP)。但没有得到步骤如何进行以下操作Q1:如何将数据、元数据配置从旧机器迁移到新机器。(旧机器版本是cantos6.5目标机器版本是centos6.5)Q2:要备份哪些组件和文件夹？命令是什么？Q3:如何备份nameode和datanodes？Q4:ambari数据库也需要备份吗？如有任何帮助，我们将不胜感激？最佳答案我个人更喜欢在GCP中配置hadoop集群，并使用distcp将数据移动到新集

HDFS-HAWQ Migration strong section hadoop hdfs ambari hawq

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

SoldToAddr2 postgresql 34 char decimal hadoop external-tables hawq

hadoop - 向hawq插入流数据

如何将流式数据插入hawq并对在线数据进行查询。我测试了jdbc插入，但性能很差。之后，我测试了使用flume将数据写入hdfs并在hawq中创建了外部表，但是在flume关闭文件之前hawq无法读取数据。问题是，如果几天后文件数量增加，我将flume文件滚动设置得非常低(1分钟)，这对hdfs不利。第三个解决方案是hbase，但是因为我的大部分查询都是对许多数据的聚合，所以hbase不是一个好的解决方案(hbase适合获取单个数据)。那么在这些限制条件下，用hawq在线查询流式数据有什么好的方案呢？最佳答案如果您的源数据不在h

入流 hadoop section spring gpfdist hdfs hawq nosql

hadoop - 来自 Ambari 的 HAWQ 服务检查失败

我们有小型Hadoop-Hawq集群。在那，当我执行HAWQ服务的检查时，从属主机服务失败。从AmbariUI获取以下错误:**stderr:**Traceback(mostrecentcalllast):File"/var/lib/ambari-agent/cache/stacks/PHD/3.0/services/HAWQ/package/scripts/service_check.py",line9,inHAWQServiceCheck().execute()File"/usr/lib/python2.6/site-packages/resource_management/lib

hadoop Ambari section denied Permission greenplum hawq

hadoop - 建立在 HDFS 之上的 Apache HAWQ 安装

我想安装基于Hadoop的ApacheHAWQ。在安装HAWQ之前，我应该安装Hadoop并配置我所有的节点。我有四个节点如下，我的问题是一样的。我应该为hawq-master安装一个hadoop发行版吗？1.hadoop-master//namenode,SecondaryNamenode,ResourceManager,HAWQStandby,2.hawq-master//HAWQMaster3.datanode01//Datanode,HAWQSegment4.datanode02//Datanode,HAWQSegment如上我在节点旁边写了每个节点的作用。在我看来，我应该为h

hadoop Apache master code hawq

postgresql - 关于 hawq pxf 访问 hdfs 上的文件数据

在我部署了hdfs、mapreduce、hawq、pxf和ambari之后，我使用impala-tpcds-kits在hdfs上生成了大约10G数据。但是当我用用户postgres登录Postgres时，我不能使用命令行CREATEEXTERNALTABLE来索引hdfs上的数据。当我使用psqlhelp命令时，没有关键字CREATEEXTERNALTABLE。不知道为什么？Lastlogin:ThuAug2515:08:152016from192.168.1.50[root@hadoop-m-21~]#supostgresbash-4.1$psqlpsql(8.4.20)Type"h

postgresql hawq section code EXTERNAL hadoop

12 3