Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

coder 2024-01-07 原文

我是 Hadoop 的新手! 现在我正在尝试将 MultipleOutputFormat 与 hadoop 2.2.0 一起使用，但它们似乎只适用于已弃用的“JobConf”，而后者又使用已弃用的 Mapper 和 Reducer (org.apache.hadoop.mapred.Reducer) 等。关于如何使用新的“org.apache.hadoop.mapreduce.Job”实现多个输出功能有什么想法吗？

最佳答案

正如@JudgeMental 指出的那样，您应该将 MultipleOutputs 与新 API (mapreduce) 一起使用，因为 MultipleOutputFormat 仅支持旧 API (映射)。 MultipleOutputs 实际上为您提供了比 MultipleOutputFormat 更多的功能:

使用MultipleOutputs，每个输出可以有自己的OutputFormat，而使用MultipleOutputFormat，每个输出必须是相同的OutputFormat。
与 MultipleOutputs 相比，使用 MultipleOutputFormat 可以更好地控制命名方案和输出目录结构。
您可以在同一作业的 map 和 reduce 函数中使用 MultipleOutputs，这是 MultipleOutputFormat<>。
您可以使用 MultipleOutputs 为不同的输出设置不同的键和值类型。

所以两者并不相互排斥，即使 MultipleOutputs 有更多的特性，它在命名能力方面的灵 active 较低。

要了解如何使用 MultipleOutputs，您应该看看 this documentation其中包含一个完整的例子。简而言之，这是您要放入驱动程序类中的内容:

// Defines additional single text based output 'text' for the job
MultipleOutputs.addNamedOutput(job, "text", TextOutputFormat.class, LongWritable.class, Text.class);

// Defines additional sequence-file based output 'sequence' for the job
MultipleOutputs.addNamedOutput(job, "seq", SequenceFileOutputFormat.class, LongWritable.class, Text.class);

并且在您的 Mapper 或 Reducer 中，您应该使用 在 setup 方法中初始化您的 MultipleOutputs >MultipleOutputs mos = new MultipleOutputs(context); 然后你可以在 map 和 reduce 函数中使用它作为 mos.write("seq ", LongWritable(1), new Text("Bye"), "seq_a")。不要忘记在 cleanup 方法中用 mos.close() 关闭它!

关于Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20209060/

有关Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - bundler : not executable: script/delayed_job - 2
我正在尝试在我的远程服务器上运行以下命令(通过capistrano或ssh):bundleexecRAILS_ENV=productionscript/delayed_jobstart但我收到此错误消息:bundler:notexecutable:script/delayed_job以前从未见过这个，谷歌也没有适合我的东西。知道可能是什么问题吗？最佳答案也许它没有运行权限？尝试运行这个命令chmod+xscript/delayed_job然后再次执行文件。关于ruby-on-rai
ruby - 如何使用 readline 支持重新安装 ruby？ - 2
我已经按照https://github.com/wayneeseguin/rvm#installation上的说明通过RVM安装了Ruby.有关信息，我有所有文件(readline-5.2.tar.gz、readline-6.2.tar.gz、ruby-1.9.3-p327.tar.bz2、rubygems-1.8.24.tgz、wayneeseguin-rvm-stable.tgz和yaml-0.1.4.tar.gz)在~/.rvm/archives目录中，我不想在任何目录中重新下载它们方式。当我这样做时:sudo/usr/bin/apt-getinstallbuild-essent
ruby-on-rails - "undefined method ` stub_request '"访问 RSpec 支持文件中的方法时 - 2
我的Ruby-on-Rails项目中有以下文件结构，用于规范:/spec/msd/serviceservice_spec.rb/support/my_modulerequests_stubs.rb我的request_stubs.rb有:moduleMyModule::RequestsStubsmodule_functiondeflist_clientsurl="dummysite.com/clients"stub_request(:get,url).to_return(status:200,body:"clientsbody")endend在我的service_spec.rb我有:re
ruby - Ruby 是否支持逐字字符串？ - 2
Ruby是否支持(找不到更好的词)非转义(逐字)字符串？就像在C#中一样:@"c:\ProgramFiles\"...或者在Tcl中:{c:\ProgramFiles\} 最佳答案是的，您需要在字符串前加上%前缀，然后是描述其类型的单个字符。你想要的是%q{c:\programfiles\}。镐书很好地涵盖了这一点here,部分是通用分隔输入。关于ruby-Ruby是否支持逐字字符串？，我们在StackOverflow上找到一个类似的问题： https:/
ruby - 在 Ruby 1.8 中支持 Ruby 1.9 的哈希语法 - 2
我正在编写一个Rubygem，在我的代码中使用{key:'value'}哈希语法。我的测试都在1.9.x中通过，但我(可以理解)在1.8.7中得到syntaxerror,unexpected':',expecting')'。是否有支持1.8.x的最佳实践？我是否需要使用我们的老friend=>重写代码，还是有更好的策略？最佳答案我认为你运气不好，如果你想支持1.8，那么你必须使用=>。像往常一样，我会提到在1.9的某些情况下您必须使用=>:如果键不是一个符号。请记住，任何对象(符号、字符串、类、float……)都可以是Ruby哈
ruby-on-rails - Rails 是否支持监听 UDP 套接字的简洁方式？ - 2
在Rails中，什么是集成更新模型某些元素的UDP监听过程的最佳方式(特别是它将向其中一个表添加行)。简单的答案似乎是在同一个进程中使用UDP套接字对象启动一个线程，但我什至不清楚我应该在哪里做适合Rails方式的事情。有没有一种巧妙的方法来开始收听UDP？具体来说，我希望能够编写一个UDPController并在每个数据报消息上调用一个特定的方法。理想情况下，我希望避免在UDP上使用HTTP(因为它会浪费一些在这种情况下非常宝贵的空间)，但我完全控制消息格式，因此我可以为Rails提供它需要的任何信息。最佳答案 Rails是一个
ruby-on-rails - delayed_job 作为守护进程运行时作业失败。使用 rake 作业时运行良好 :work - 2
我实在是无计可施了。我不明白为什么它不起作用。我创建了一个类，我使用rake命令对其进行调用和排队。当我使用“rakejobs:work”运行worker并调用命令“rakeget_updates”时，它执行得很好。但是，当我将worker作为守护进程运行时(RAILS_ENV=productionbin/delayed_jobstart)并调用命令“rakeget_updates”时，它会产生错误。app/workers/get_updates.rbclassGetUpdatesdefperformbeginning=Time.nowincludeSoapHelperrequire'

Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job

有关Hadoop MultipleOutputFormat 支持 org.apache.hadoop.mapreduce.Job的更多相关文章

随机推荐