bigdata

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训，因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中，我想从MySQL导入一个表，并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它，但我找到了一个正确的示例来执行此操作。我已经试过了，但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

中导 mysql hive section table hadoop hadoop2 bigdata

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好，我正在做我的一个项目，我创建了5台机器的虚拟机，它在开发环境中运行良好，但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。最佳答案 Hadoop是为物理系统开发的，但它会在虚拟环境中发挥不同程度的成功，这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题，Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点，并讨论了云部署。您应该阅读本文，看看您属于哪种部署方案，并评估您的VM设置中可能存在的问题。

with Physical section Hadoop 物理系 vagrant virtual-machine ambari bigdata

java - 在 MapReduce 中调用具有不同 InputFormatClass 的多个 Mapper

我想用三个Mapper编写代码，其中两个将处理".csv"文件，其他是".xml"。我已经为来自here的.xml格式编写了XmlInputFormat现在我想知道我应该输入什么job.setInputFormatClass(...);还有我应该添加哪个以提供文件路径。TextInputFormat.addInputPath(...)TextOutputFormat.setInputPath(...)或TextInputFormat.addInputPath(...)TextOutputFormat.setInputPath(...) 最佳答案

InputFormatClass MapReduce code 射器 section java xml hadoop bigdata

hadoop - 如何将 pyspark 输出写入 impala 表？

我将pyspark用于我的问题陈述，在这里，我想合并我的输出并将其作为我的其他模型的输入。但是在hdfs中，我的输出被分成几部分，因此很难将它们组合起来。所以我想将输出结果直接存储到impala表中，我该怎么做呢？最佳答案要将存储在HDFS中的文件内容公开为表，您可以定义一个外部表:CREATEEXTERNALTABLEtable_name(column_1string,...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/some/path/

pyspark hadoop section strong code hdfs bigdata impala

hadoop - Hive 分区表的记录数

我在Hive中有一个名为“transaction”的表，该表分区在一个名为“DS”的列上，该列将包含类似“2018-05-05”的数据，“2018-05-09”、“2018-05-10”等此表是在完成当天的一夜之间填充的。在任何时候，该表都会有前一天的数据当我像这样查询交易表时SELECTCOUNT(*)FROMtrasactionWHEREDS>="currentdate";我明白了0行-这是正确的，因为尚未加载当前和future日期的数据当我运行以下查询时SELECTDISTINCTDSFROMtrasactionWHEREDS>="currentdate";我明白了2018-05

hadoop Hive 2018 section strong bigdata hadoop-partitioning

sql - 在 Impala 中使用字符串或数组检查子集

我有一张这样的tablecol-----A,Bcol可以是带逗号的字符串或数组。我在存储方面具有灵active。如何检查col是另一个字符串或数组变量的子集？例如:B,A-->TRUE(顺序无关紧要)A,D,B-->TRUE(中间的其他项)A,D,C-->FALSE(缺少B)我在类型上有灵active。该变量是我无法存储在表中的内容。如果您仅对Impala(无Hive)有任何建议，请告诉我。谢谢最佳答案一个不太漂亮的方法，但也许是一个起点......假设一个表有一个唯一标识符列id和一个array专栏col,和一个带有','的字

Impala sql code section 39 hadoop hive bigdata

apache-spark - 使用 Apache Spark 获取大量时间范围的最快方法是什么？

我在Hadoop中有大约100GB的时间序列数据。我想使用Spark从1000个不同的时间范围内抓取所有数据。我已经尝试使用ApacheHive来创建一个非常长的SQL语句，其中包含大约1000个'ORBETWEENXANDYORBETWEENQANDR'语句。我也尝试过使用Spark。在这种技术中，我创建了一个具有相关时间范围的数据框，并将其加载到spark中:spark_session.CreateDataFrame()和df.registerTempTable()有了这个，我正在与新创建的时间戳数据框和更大的时间戳数据集进行连接。此查询需要很长时间，我想知道是否有更有效的方法来执

apache-spark 最快 section code pre hadoop bigdata

hadoop - Mapreduce 作业消耗更多资源和更改队列

我有一个运行超过1.7亿条记录的MapReduce作业。这导致消耗了98%的队列资源和89%的集群资源。管理团队建议他们创建配置有限的新队列，我应该将我的工作推送到该队列中。这里有问题，我有:-1-我怎样才能将我的mapreduce作业(“hadoopjar”)推送到新队列并进行最少的更改？2-由于新创建的队列资源有限，如果队列容量已满怎么办？它会导致长期运行或作业失败吗？3-是否有任何其他最佳方法来防止作业消耗所有资源，如果作业运行时间稍长一点，我们就可以接受。请指教。任何帮助都会很棒。最佳答案如果您正在使用容量/公平份额调度

Mapreduce hadoop section strong 作业 bigdata hadoop2 hortonworks-data-platform

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群，如前所述here并且还设置了spark以提供对此Hadoop环境的引用，如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外，我可以使用localhost查看HDFS。.为了更进一步，我将示例文件上传到HDFS，并使用Hadooplocalhost验证它是否可用。现在，我尝试使用Java和spark-shell(Scala)来计算文件中的行数，但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

时出 HadoopRDD spark apache Hadoop java scala apache-spark bigdata

hadoop - 配置单元错误 : For Exists/Not Exists operator SubQuery must be Correlated

select*fromstudents1;students1.namestudents1.agestudents1.gpafred351.28barney322.32shyam322.32select*fromstudents2;students1.namestudents1.agefred35barney32当我运行这个查询时selectname,agefromstudents1wherenotexists(selectname,agefromstudents2);我收到这个波纹管错误Errorwhilecompilingstatement:FAILED:SemanticExcept

配置单 Exists students students1 section hadoop hive bigdata

3 4 567 8 9