jjzjj

IOException

全部标签

Hadoop 无法完成作业,因为 "No space left on device"

我正在尝试运行一个非常简单的hadoop作业。它是对经典wordCount的修改,它不计算单词,而是计算文件中的行数。我想用它来清理一堆我知道有重复的大日志文件(每个大约70GB)。每行都是一条“记录”,因此我只想获取每条记录一次。我知道我的代码是有效的,因为当我用小的普通文件运行它时,它做了它应该做的事情。当我用大文件运行它时,Hadoop表现得很严格。首先,它开始在MAP阶段正常工作,该阶段通常可以毫无问题地达到100%。然而,在处理REDUCE时,它永远不会超过50%。它可能达到40%,然后在显示一些“设备上没有剩余空间”异常后回到0%:FSError:java.io.IOExc

java - 如何(在 Hadoop 中)将数据以正确的类型放入 map 和 reduce 函数中?

我有点难以理解Hadoop中的数据如何放入map和简化功能。我知道我们可以定义输入格式和输出格式,然后定义输入和输出的键类型。但是举个例子,如果我们想要一个对象作为输入类型,Hadoop内部是如何做到的?谢谢... 最佳答案 您可以使用HadoopInputFormat和OutputFormat接口(interface)来创建您的自定义格式..一个示例可能是将MapReduce作业的输出格式化为JSON..类似这样-publicclassJsonOutputFormatextendsTextOutputFormat{@Overrid

java - 错误 : java. io.IOException : wrong value class: class org. apache.hadoop.io.Text 不是类 Myclass

我的映射器和缩减器如下。但是我遇到了一些奇怪的异常。我不明白为什么会抛出这种异常。publicstaticclassMyMapperimplementsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Texttext=newText("someText")//processoutput.collect(text,infoObjeject);}}publicstaticclassMyReducerimplemen

hadoop - java.io.IOException : Not a data file 异常

我正在处理一堆存储在HDFS嵌套目录结构中的avro文件。这些文件存储在年/月/日/小时格式的目录结构中。我写了这个简单的代码来处理sc.hadoopConfiguration.set("mapreduce.input.fileinputformat.input.dir.recursive","true")valrootDir="/user/cloudera/rootDir"valrdd1=sc.newAPIHadoopFile[AvroKey[GenericRecord],NullWritable,AvroKeyInputFormat[GenericRecord]](rootDir)

java.io.IOException : Initialization of all the collectors failed. 最后一个收集器中的错误是:null

我是MapReduce的新手,我正在尝试找到问题的解决方案。我正在尝试链接两个mapreduce作业。第一个作业正在执行,但在第二个作业中我收到如下错误INFOmapreduce.Job:TaskId:attempt_1445271708293_0055_m_000000_1,Status:FAILEDError:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapred.MapTask.createSortingCol

java - 失败,异常 java.io.IOException :org. apache.avro.AvroTypeException : Found long, 期望在配置单元中联合

需要帮助!!!我正在使用flume将Twitter提要流式传输到hdfs中并将其加载到hive中进行分析。步骤如下:hdfs中的数据:我已经描述了avroschema在avsc文件并将其放入hadoop中:{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name":

hadoop - java.io.IOException : Incompatible clusterIDs 异常

我正在安装Hadoop2.7.2(1个主NN-1第二个NN-3数据节点)并且无法启动数据节点!!!在大声喊出日志(见下文)之后,fatalerror是由于ClusterID不匹配造成的……很简单!只需更改ID。错误...当我在NameNode和DataNode上检查我的VERSION文件时,它们是相同的..所以问题很简单:INTO日志文件-->NameNode的ClusterID来自哪里????日志文件:WARNorg.apache.hadoop.hdfs.server.common.Storage:java.io.IOException:IncompatibleclusterIDsi

Hadoop IOException 登录失败

我是Hadoop的新手。但是,我已经能够在我的服务器上以集群模式成功地使用Java7设置hadoop2.7.3。一切正常。但是,当我尝试切换到Java8并启动dfs时,出现错误:Exceptioninthread"main"java.io.IOException:failuretologinatorg.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:824)atorg.apache.hadoop.security.UserGroupInformation

hadoop - Spark - java IOException :Failed to create local dir in/tmp/blockmgr*

我试图运行一个长时间运行的Spark作业。执行几个小时后,出现以下异常:Causedby:java.io.IOException:Failedtocreatelocaldirin/tmp/blockmgr-bb765fd4-361f-4ee4-a6ef-adc547d8d838/28试图通过检查来绕过它:/tmp目录中的权限问题。spark服务器未以root身份运行。但是/tmp目录应该对所有用户都是可写的。/tmp目录有足够的空间。 最佳答案 假设您正在使用多个节点,您需要检查参与spark操作的每个节点(master/drive

Java接口同时上传文件和json数据, Java MultipartFIle向接口上传文件java.io.IOException: java.io.FileNotFoundException(系统找

Java接口同时上传文件和json数据,JavaMultipartFIle向接口上传文件1.问题描述最近有个数据对接的项目,第三方请求接口同时提供上传文件、数据,后台这边根据业务逻辑进行处理。2.思路分析前端向后台传文件(文件流)只能用表单form-data,无法用Json形式上传,后端接口之间对接也是如此。因此和对方约定好接口为:"files":xxx{"param":"abc"}参数名类型可为空描述param字符串否参数filesMultipartFile[]否文件注意:1)由于接口并非一个完整的JSON数据,因此不可以加@RequestBody注解;2)文件参数使用@RequestPar