jjzjj

IntWritable

全部标签

java - 如何格式化 Hadoop 中 Mapreduce 写入的输出

我正在尝试按每个单词反转文件的内容。我的程序运行良好,但我得到的输出是这样的1dwp2seviG3eht4tnerruc5gnikdrow6yrotcerid7ridkm8desU9ot10etaerc我希望输出是这样的dwpseviGehttnerrucgnikdrowyrotceridridkmdesUotetaerc我正在使用的代码importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.ha

Hadoop 无法完成作业,因为 "No space left on device"

我正在尝试运行一个非常简单的hadoop作业。它是对经典wordCount的修改,它不计算单词,而是计算文件中的行数。我想用它来清理一堆我知道有重复的大日志文件(每个大约70GB)。每行都是一条“记录”,因此我只想获取每条记录一次。我知道我的代码是有效的,因为当我用小的普通文件运行它时,它做了它应该做的事情。当我用大文件运行它时,Hadoop表现得很严格。首先,它开始在MAP阶段正常工作,该阶段通常可以毫无问题地达到100%。然而,在处理REDUCE时,它永远不会超过50%。它可能达到40%,然后在显示一些“设备上没有剩余空间”异常后回到0%:FSError:java.io.IOExc

java - Hadoop:LongWritable 无法转换为 org.apache.hadoop.io.IntWritable

我想取输入文件中给出的温度的平均值,我的Mapper和Reducer语法对我来说似乎没问题,但我仍然收到以下错误:UnabletoloadrealminfofromSCDynamicStore13/02/1708:03:28INFOmapred.JobClient:TaskId:attempt_201302170552_0009_m_000000_1,Status:FAILEDjava.lang.ClassCastException:org.apache.hadoop.io.LongWritablecannotbecasttoorg.apache.hadoop.io.IntWritab

hadoop - Map Reduce 输出到 CSV 还是我需要键值?

我的map函数产生一个键\t值值=列表(值1、值2、值3)然后我的reduce函数产生:Key\tCSV-Line例如2323232-2322fdsfs,sdfs,dfsfs,0,0,0,2,fsda,3,23,3,s,2323555-22222dfasd,sdfas,adfs,0,0,2,0,fasafa,2,23,s例。原始数据:232342|@3423@|34343|sfasdfasdF|433443|Sfasfdas|324343x1000无论如何,我想删除开头的key,这样我的客户就可以直接导入到mysql中。我有大约50个数据文件,我的问题是在它映射一次并且reducer启

hadoop - 使用自定义可写从 Hadoop Map Reduce 作业输出列表

我正在尝试通过更改hadoop给出的字数示例来创建一个简单的mapreduce作业。我试图列出一个列表而不是单词数。wordcount示例给出以下输出hello2world2我正在努力让它以列表的形式输出,这将构成future工作的基础hello11world11我认为我在正确的轨道上,但我在编写列表时遇到了问题。而不是上面的,我得到Hellofoo.MyArrayWritable@61250ff2Worldfoo.MyArrayWritable@483a0ab1这是我的MyArrayWritable。我在write(DataOuptutarg0)中放了一个sysout但它从不输出任何

hadoop - 使用 Hadoop 2.0 Apis 读写 Sequencefile

我正在寻找一个使用新API读取和写入序列文件的示例。实际上我需要知道如何使用这些函数createWriter(Configurationconf,org.apache.hadoop.io.SequenceFile.Writer.Option...opts)旧定义不适合我:SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());同样,我需要知道读取序列文件的代码是什么,因为以下内容已弃用:SequenceFile.Reader(fs,path,conf);这里是使用相同的方法-Stringuri=ar

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.LongWritable

我正在尝试在java中运行map/reducer。以下是我的文件WordCount.javapackagecounter;publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"wordcount");job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.cl

MapReduce之WordCount案例实操

 目录前期准备:本机测试:mapper阶段:Reduce阶段:Driver类:集群测试:前期准备:因为MapReduce中案例比较多,所以需要单独创建一个工程准备工作  创建工程后先改maven仓库的地址(创建工程后默认为idea自带的仓库**提示在你打开别的项目后,在你重新打开本项目的时候,maven会改回idea的maven)让后在  项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”(打印INFO级别的日志)填入:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache

MapReduce之WordCount案例实操

 目录前期准备:本机测试:mapper阶段:Reduce阶段:Driver类:集群测试:前期准备:因为MapReduce中案例比较多,所以需要单独创建一个工程准备工作  创建工程后先改maven仓库的地址(创建工程后默认为idea自带的仓库**提示在你打开别的项目后,在你重新打开本项目的时候,maven会改回idea的maven)让后在  项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”(打印INFO级别的日志)填入:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache

java - "Shortcut"在reduce()方法中确定Iterator<IntWritable>中的最大元素

我在下面写了reduce()确定给定年份的最高记录温度的方法。(map()的输出给出了一年中记录的温度列表。)publicvoidreduce(IntWritableyear,Iteratortemps,OutputCollectoroutput,Reporterreporter)throwsIOException{intmaxValue=Integer.MIN_VALUE;while(temps.hasNext()){intnext=temps.next().get();if(next>maxValue){maxValue=next;}}output.collect(year,new