jjzjj

mysql - 如何获得 hive 中时间戳的平均差异

我有下面的表格,其中包含两列hive>select*fromhivetable;a2016-09-16T03:01:12.367782Zb2016-09-16T03:01:12.300514Zc2016-09-16T03:01:12.241532Za2016-09-16T03:01:12.138016Zc2016-09-16T03:01:12.136986Zb2016-09-16T03:01:10.512201Zc2016-09-16T03:01:12.235671ZTimetaken:0.457seconds,Fetched:7row(s)现在我想从第一列中找到唯一值和时间戳差异,或

json - 在为下游应用程序写入HDFS时,JSON与CSV文件格式的Mertis

我们正在提取源数据(xls)并将其注入hdfs。是否最好以csv或json格式编写这些文件,我们正在考虑选择其中一个,但在调用之前,我们想知道使用其中一个文件的优点和缺点是什么。我们试图找出的因素有:性能(数据量为2-5GB)加载与读取数据从这些文件中提取元数据(结构)信息是多么容易。注入的数据将被同时支持json和csv的其他应用程序使用。 最佳答案 阅读本文,它将解决您的问题:https://community.hitachivantara.com/community/products-and-solutions/pentaho

hadoop - 为什么 mapreduce 作业指向本地主机 :8080?

我正在处理MapReduce作业并使用ToolRunner的运行方法执行它。这是我的代码:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{System.setProperty("hadoop.home.dir","/");intexitCode=ToolRunner.run(newMaxTemperature(),args);System.exit(exitCode);}@Overridepublicintrun(Stri

hadoop - 重新执行如何成为容错的主要来源?

在一篇关于MapReduce的研究论文中,有一句话:Ouruseofafunctionalmodelwithuserspecifiedmapandreduceoperationsallowsustoparallelizelargecomputationseasilyandtousere-executionastheprimarymechanismforfaulttolerance.我不明白重新执行的实际含义以及重新执行如何成为容错的主要机制? 最佳答案 我想给出一个笼统的答案。错误或失败的原因:节点故障/无法访问换句话说,这意味着该

hadoop - HDFS 和 ZooKeeper 之间的区别?

在阅读ZooKeeper的文档时,在我看来,HDFS依赖于与ZooKeeper几乎相同的分发/复制机制(广义上讲)。我听到一些回声,但我仍然不能清楚和严格地分辨事物。我知道ZooKeeper是一个集群管理/同步工具,而HDFS是一个分布式文件管理系统,但是HDFS集群是否需要ZK? 最佳答案 是的,因素是具有zookeper仲裁的hadoop集群上的分布式处理和高可用性例如。HadoopNamenode故障转移过程。Hadoop高可用性是围绕ActiveNamenode和StandbyNamenode设计的,用于故障转移过程。在任何

hadoop - 简单计数查询超出 Impala 内存限制

编辑:表中有一些损坏的AVRO文件。删除其中一些后,一切正常。我已经使用avro-tools将这些文件解压缩为json,并且解压缩的文件也不是很大。所以它似乎是Impala中处理损坏的AVRO文件的一些错误。我有一个Impala表,采用gzip压缩的AVRO格式,按“天”分区。当我执行查询时:从adhoc_data_fast.log中选择count(0)whereday='2017-04-05';它说:Query:selectcount(0)fromadhoc_data_fast.logwhereday='2017-04-05'Querysubmittedat:2017-04-0613

mysql - 如何将数据从 Hadoop 导出到 MySQL/任何数据库?

我研究过的大多数教程都指出我必须使用Sqoop用于导出/导入,很多手册都展示了如何将数据从DB导出到HDFS,但是我如何进行反向大小写?假设,我在localhost上有一个company数据库,它有一个空的users表,其中包含以下列:id、user和我有hadoop为我提供像(id,user)这样的数据,但将其保存到一些hadoop-output.txt中而不是到MySQL。是否有一些命令行命令可以通过Sqoop从HDFS导入MySQL? 最佳答案 sqoop-export就是这样做的。sqoop-export--connectj

java - 错误 : <identifier> expected in java hadoop

我正在为字数统计hadoop编译一个java文件,但是在编译时会抛出一个错误:CountBook.java:33:error:expectedpublicvoidreduce(Text_key,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIOException这是我的代码publicclassCountBook{publicstaticclassEMapperextendsMapReducebaseimplementsMapper{privatefinalstaticIntwritableone=newIntw

hadoop - 只能复制到 0 个节点而不是 minReplication (=1)。有 2 个数据节点正在运行,并且没有节点被排除在此操作中

当我对hive执行“sqoopimport...”时出现此错误。namenodelogjava.io.IOException:File/input/xxxx/_temporary/1/_temporary/attempt_1492073551248_0012_m_000002_1/part-m-00002couldonlybereplicatedto0nodesinsteadofminReplication(=1).Thereare2datanode(s)runningandnonode(s)areexcludedinthisoperation.datanodelogsslave1:2

python - 如何通过 pyspark/hadoop/etc 提高程序的速度?

我有一个大型矩阵目录,我正在对此类矩阵应用一些昂贵的操作。管道看起来像这样:Directory->extractmatrices->applyoperations->saveina.csvfile请注意,我将之前的“管道”包装到一个函数中。到目前为止,使用python的多处理库,我能够在1周内应用以前的管道。但是,我很好奇是否有可能以sparkmap-reduce的方式“并行化”之前的函数。因此,我的任务可以用pysparksmapreduce来增强吗?我怎样才能提高速度?(我只有两台笔记本电脑),你们推荐我在不修改功能的情况下提高管道速度的其他方法是什么?