jjzjj

ElasticMapReduce

全部标签

Python 客户端支持在 Amazon EMR 上运行 Hive

我注意到mrjob和boto都不支持在AmazonElasticMapReduce(EMR)上提交和运行Hive作业的Python接口(interface)。是否有任何其他支持在EMR上运行Hive的Python客户端库? 最佳答案 使用boto你可以做这样的事情:args1=[u's3://us-east-1.elasticmapreduce/libs/hive/hive-script',u'--base-path',u's3://us-east-1.elasticmapreduce/libs/hive/',u'--install

hadoop - Amazon ElasticMapReduce(EMR) 控制拆分大小/映射器数量

如何更改此配置?对于我的应用程序,64/128的拆分大小对我来说太多了,例如,我希望拆分大小为16mb。我该怎么做? 最佳答案 您可以通过设置fs.s3n.block.size来更改默认block大小。请在您的代码中尝试如下所示-jobConf.set("fs.s3n.block.size",value);请引用以下链接-http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.htmlhttp://s3.amazonaw

EC2 上的 Hadoop 与 ElasticMapReduce/S3

我使用ElasticMapReduce有一段时间了。这很方便,但我无法运行HBase,因为Hadoop集群只是暂时可用(我在HBaseandHadoop上问过一些相关的问题)。所以我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录-src/contrib/ec2。看起来只需键入命令即可启动Hadoop集群,我可以登录到主节点以运行作业等。在尝试这个之前,我想知道任何使用过这个的人的陷阱。谢谢! 最佳答案 事实上,在亚马逊上使用hadoop有两种选择——配置您自己的集群或使用EMR。与此决定正交,您

java - 配置单元/ElasticMapreduce : How bring JsonSerDe to ignore malformed JSON?

我对Hive和ElasticMapreduce还很陌生,目前我遇到了一个特定的问题。在包含数十亿行JSON对象的表上运行Hive语句时,只要其中一行是无效的/格式错误的JSON,MapReduce作业就会崩溃。异常:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingwritable{"ip":"39488130","cdate":"2012-08-09","cdate_ts":"2012-08-0917:06:41","co