EMR

hadoop - 获取 emr-ddb-hadoop.jar 以连接 DynamoDB 和 EMR Spark

我有一个DynamoDB表，我需要连接到EMRSparkSQL以在该表上运行查询。我得到了带有发布标签emr-4.6.0和Spark1.6.1的EMRSparkCluster。我指的是文档:AnalyseDynamoDBDatawithSpark连接到主节点后，我运行命令:spark-shell--jars/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar它给出警告:Warning:Localjar/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jardoesnotexist,skipping.稍后，当我使用导

hadoop - Apache hive : How to convert string to timestamp?

我正在尝试将REC_TIME列中的字符串转换为配置单元中的时间戳格式。例如:2016年7月31日星期日09:28:20=>2016-07-3109:28:20SELECTxxx,UNIX_TIMESTAMP(REC_TIME,"EMddHH:mm:sszyyyy")FROMwlogsLIMIT10;当我执行上面的SQL时，它返回一个NULL值。最佳答案试试这个:selectfrom_unixtime(unix_timestamp("SunJul3109:28:20UTC2016","EEEMMMddHH:mm:sszzzyyyy

timestamp convert section code strong hadoop hive hiveql emr

hadoop - 不能在 Hive 表列名中使用 "."

我正在使用Hive2.1.1并尝试在列名称中使用.创建一个表:CREATETABLE`test_table`(`field.with.dots`string);当我这样做时，我得到:FAILED:ParseExceptionline4:0Failedtorecognizepredicate')'.Failedrule:'[.,:]cannotbeusedincolumnnameincreatetablestatement.'incolumnspecification我一定是做错了什么，因为hivedocumentation说:InHiverelease0.13.0andlater,by

列名 amp code section table hadoop hive hiveql emr

hadoop - AWS EMR 上的 YARN 日志聚合 - UnsupportedFileSystemException

我正在努力为我的AmazonEMR集群启用YARN日志聚合。我正在按照此文档进行配置:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-archive在标题为“使用AWSCLI在AmazonS3中聚合日志”的部分下。我已验证hadoop-config引导操作将以下内容放入yarn-site.xmlyarn.log-aggregation-enabletrueyarn.log-aggregation.retain

UnsupportedFileSystemException hadoop code apache hadoop-yarn emr amazon-emr hadoop2

hadoop - Spark/Hadoop - 无法使用服务器端加密保存到 s3

我正在运行AWSEMR集群来运行spark作业。为了使用s3存储桶，hadoop配置设置了访问key、secretkey、enableServerSideEncryption和用于加密的算法。请看下面的代码valhadoopConf=sc.hadoopConfiguration;hadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("fs.s3.awsAccessKeyId","xxx")hadoopConf.set("fs.s3.awsSecretAc

hadoop code section hadoopConf encryption amazon-s3 apache-spark emr

hadoop - 在 EMR 上运行 Spark 作业时 AWS 连接超时

我正在尝试在AmazonEMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例(1个主实例、4个从实例)，每个实例有16个vCPU和32GB内存。这是我的代码:defmain(args:Array[String]):Unit={valsparkConfig=newSparkConf().set("hive.exec.dynamic.partition","true").set("hive.exec.dynamic.partition.mode","nonstrict").set("hive.s3.max-client-retries","50").set("h

hadoop Spark apache java apache-spark amazon-s3 apache-spark-sql emr

hadoop - Spark 作业只是挂起大数据

我正在尝试从s3查询(15天的数据)。我尝试分别(每天)查询它们，效果很好。它也可以正常工作14天。但是当我查询15天时，作业一直运行(挂起)并且任务#没有更新。我的设置:我正在使用51节点集群r3.4xlarge，启用了动态分配和最大资源。我所做的只是=valstartTime="2017-11-21T08:00:00Z"valendTime="2017-12-05T08:00:00Z"valstart=DateUtils.getLocalTimeStamp(startTime)valend=DateUtils.getLocalTimeStamp(endTime)valdays:In

大数 hadoop section code li apache-spark hadoop-yarn emr amazon-emr

amazon-web-services - 如何让 Zeppelin 在 EMR 集群上干净地重启？

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发布标签:emr-5.2.1Hadoop发行版:Amazon2.7.3hive2.1.0Spark2.0.2飞艇0.6.2我一直遇到Zeppelin在运行查询时挂起的问题，而且我永远无法恢复它。我试过:-重新启动解释器-通过SSH进入主节点并运行zeppelin_daemon.shrestart(已尝试以hadoop/root/zeppelin身份运行，并使用选项reload运行脚本，开始/停止,upstart)每次我使用守护程序shell脚本时，它都会告诉我它已经停止/启动正常，但是当我运行状态时我得到这个:Ze

amazon-web-services Zeppelin code section hadoop pyspark amazon-emr apache-zeppelin

hadoop - 从命令行获取 yarn 配置

在EMR中，有没有一种方法可以使用yarn命令在给定配置键的情况下获取配置的特定值？例如我想做这样的事情yarnget-configyarn.scheduler.maximum-allocation-mb 最佳答案这有点不直观，但结果是hdfsgetconf命令能够检查YARN和MapReduce的配置属性，而不仅仅是HDFS。>hdfsgetconf-confKeyfs.defaultFShdfs://localhost:19000>hdfsgetconf-confKeydfs.namenode.name.dirfile:///

hadoop yarn code section hadoop-yarn hadoop2 emr elastic-map-reduce

hadoop - 如何使用 Elastic MapReduce API 在一个步骤中向 Hadoop 提交多个作业？

AmazonEMRDocumentationtoaddstepstocluster表示单个ElasticMapReduce步骤可以向Hadoop提交多个作业。然而，AmazonEMRDocumentationforStepconfiguration建议单个步骤只能执行一次hadoop-streaming.jar(也就是说，HadoopJarStep是一个HadoopJarStepConfig而不是一组HadoopJarStepConfigs)。一次向Hadoop提交多个作业的正确语法是什么？最佳答案赞AmazonEMRDocum

MapReduce Elastic code section script hadoop amazon-web-services hadoop-streaming emr

7 8 91011 12 13