有没有类似Mahout'sXmlInputFormat的东西但是对于Flink呢?我有一个很大的XML文件,我想提取特定的元素。在我的例子中,它是一个维基百科转储,我需要得到所有标签。即如果我有一个文件............我想获取所有3条记录...在映射器中使用。理想情况下它应该是有效的XML,xpath查询/mediawiki/page的东西会回来的。 最佳答案 Mahout的XmlInputFormat扩展了Hadoop的TextInputFormat。Flink具有HadoopInputFormats的通用包装器,因此也应
Mahout的XmlInputFormat能否在不覆盖其任何方法的情况下处理gzip压缩数据?我一直在尝试解析经过gzip压缩的维基百科xml数据,但到目前为止都没有成功。我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中或特定于其他输入格式,并且没有内置到Mahout的输入格式中。但也许我错过了什么。注意:从那以后我就能够解析xml,但我一直没能找到明确的答案,我很惊讶我这么难找到答案。希望更聪明的人可以启发我和其他人。 最佳答案 根据这个{code}没有处理编解码器,没有覆盖我认为
我正在尝试使用Hadoop进行WordCount。我想使用XmlInputFormat.class根据XML标记拆分文件。XmlInputFormat.class是hereXmlInputFormat.class继承自TextInputFormat.classJobjob=newJob(getConf());job.setInputFormatClass(XmlInputFormat.class);显示错误ThemethodsetInputFormatClass(Class)inthetypeJobisnotapplicableforthearguments(Class)但是我用的时候
我想在hadoop中解析xml文件。它包含一个标签,如如果我在xmlinputformatstart_tag_key中将article作为我的开始标记,它无法识别article标记,因为我的文件包含带有属性的article标记。如何在xmlinputformat中为上述文章标签指定start_tag_key。 最佳答案 如果您的XML开始标记包含类似的属性然后你应该使用你的开始标签和结束标签:configuration.set("xmlinput.start","");不要关闭你的第一个文章标签,这样它会把那个标签当作一个带有其他属
我正在使用hadoopmap-reduce。我必须处理来自.xml文件的数据,解析它并将输出存储到数据库中。当我需要将我的xml传递给映射器时,我发现hadoop默认不提供XmlInputFormat.class,我们必须使用mahout的XmlInputFormat为之。我想知道什么时候Xml被广泛使用,为什么hadoop没有为此提供XmlInputFormat而不是显式创建自定义XmlInputFormat再扩展TextInputFormat? 最佳答案 虽然xml被广泛使用,但为技术提供具有特殊功能的框架可能不是一个好主意
我是HadoopMapReduce的新手(准确地说是4天),我被要求在集群上执行分布式XML解析。根据我在Internet上的(重新)搜索,使用Mahout的XmlInputFormat应该相当容易,但我的任务是确保系统适用于巨大的(~5TB)XML文件。据我所知,发送到映射器的文件拆分不能大于hdfsblock大小(或每个作业的block大小)。[如果我弄错了请纠正我]。我面临的问题是有些XML元素很大(~200MB)而有些很小(~1MB)所以我的问题是:当XmlInputFormat创建的XML元素block大于block大小时会发生什么?它会将整个大文件(例如200MB)发送到映
我是hadoop的新手,使用Hadoop2.6.0版本并尝试解析复杂的XML。搜索了一段时间后,我了解到对于XML解析,我们需要编写自定义InputFormat,它是mahout的XMLInputFormat。我也得到了thisexample的帮助但是当我在passigXMLInputformat类之后运行我的代码时,如果我使用示例中给出的XMLInputFormat,它不会调用我自己的Mapper类并且输出文件中有0个数据。令人惊讶的是,如果我没有将我的XMLInputFormat类传递给我的JOB,那么我的映射器可以正常工作并正确提供输出。有人会在这里帮助指出我在这里缺少的东西吗?