spark-streaming

xml - 在 apache spark scala 中处理带有 xml 列的文本文件

我有这样一个文件:1,MessiDon'tforgetmethisweekend!2,RonaldoDon'tforgetLaliga3,NeymarIamthebest4,SuarezDon'tforgetmethisweekend!其中第一个字段是id，第二个字段是数据。我需要将它加载到一个RDD，解析xml字符串并提取字段，然后像这样创建另一个RDD:1,Messi,Don'tforgetmethisweekend!2,Ronaldo,Don'tforgetLaliga3,Neymar,Iamthebest4,Suarez,Don'tforgetmethisweekend!由于实

xml 本文 gt lt from scala apache-spark

xml - XSL Streaming 在除提前退出以外的小文档上的用例？

我正在研究在XSL中使用流式处理的用例。我知道两个明显的案例:一个。您需要转换一个非常大的文档，而整个文档无法保存在内存中。B.你只需要文档的一小部分，而且通常那个“小部分”靠近顶部。然后，您可以通过提前退出来节省时间。我写信是想问一下，在实践中是否存在第三个真实用例:C.您有一个简单的转换并且想要放弃构建XML树所需的CPU时间。举个例子，假设一家商店的cargo存储在具有以下格式的XML结构中:顶级=年份第二级=月第3级=发货日期第4级=货件ID第5级=装运中的单个项目举个例子，考虑一个转换，其目的是在“月”级别提取信息......只需要存储在月元素属性中的数据，而不需要关于这些节

Streaming xml 流式 section 的 xslt saxon xslt-3.0

xml - 如何使用 scala 中的 spark xml 解析器解析 XML 中的字符串？

我尝试做的是使用XML解析器解析字符串。我只找到这种在scala中使用Spark进行解析的方法:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books.xml")我需要解析的是一个字符串，而不是一个文件那么，是否有加载字符串(而不是文件路径)的选项？谢谢! 最佳答案从下面的字符串创建一个RDD，valxmlStringRDD=sc.parallelize(List("Yourxmlstring"))然后

xml scala section code spark apache-spark

java - 如何将大型 XML 文件转换为 stream-like-java 8 对象

你好，我有一个(非常)大的XML文件(100GB)，其中包含一个foo列表，我想将它转换成一个流，就像它们引入对象的java8一样:有关于库或代码示例的想法吗？开头:......最后:StreamfoosStream=????("foo.xml")streamFoos.forEach(foo->foo.doFooStuffs());编辑:@Pierre谢谢，这是您的解决方案的实现:try{XMLEventReaderreader=XMLInputFactory.newInstance().createXMLEventReader(stream);finalUnmarshallerunm

java stream-like-java reader event unmarshaller xml stream java-8

c# - 在 C# 中，为什么我不能将 StringReader 传递给带有 Stream 参数的方法？

在.net4和C#中。我已经实现了一个静态方法来将XML流反序列化为一个对象。这只是进入一个对象的一种xml格式，所以我不想用它做任何花哨的事情。由于我可以通过多种方式获取此XML内容，我想我应该将传递给静态方法的参数设为Stream对象。我原以为它会接受从基类Stream派生的任何对象——例如FileStream、MemoryStream、StringReader等。当我向它传递一个FileStream对象时，它工作正常，但当我向它传递一个StringReader时，它工作正常。我的静态方法:publicstaticMatchObjDeserializeMatch(StreamsrX

c#StringReader section MatchObj .net xml

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin)，进行简单的映射/过滤，重新排序，然后将其写回磁盘，如CSV文件。但无论我如何调整它，我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分，以便每个单独的部分更小并且不会导致内存问题吗？(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

时出大文 34 spark code xml scala apache-spark apache-spark-2.0 apache-spark-xml

Java - XML 解析器性能 : Sun Java Streaming XML Parser (SJSXP) vs Woodstox

我正在寻找最新的、内存高效和高性能的JavaXML解析API。我需要解析3MB到5MB的XML文件。我对此进行了谷歌搜索，了解到SunJavaStreamingXMLParser(SJSXP)和Woodstox比DOM和SAX快得多。两者都使用StAXAPI。*这些技术不支持模式验证。AaltoXML处理器也实现了StAXAPI。我还没有找到关于这些技术性能的具体发现。哪一个在内存效率、高性能和易用性方面最好？最佳答案这里还有一些可能相关的链接:数据绑定(bind)的Stax实现:http://technotes.blogs.s

Java XML section Woodstox cowtowncoder xml-parsing stax

c# - 如何使用 System.IO.Stream 和 LINQ 读取 XML 文件

我将像这样传递xml文件:File1.PostedFile.InputStream//readingxmlfile.....publicstaticvoidreadXMLOutput(Streamstream){System.Xml.Linq.XDocumentxml=System.Xml.Linq.XDocument.Load(stream);varquery=frompinxml.Element("ste").Element("Application")//where(int)p.Element("Id")==1selectPage;foreach(varrecordinquery

c#System section XDocument code asp.net xml linq

xml - 如何从 apache spark 框架读取 XML 文件？

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而，这只讨论文本文件解析。有没有办法从spark系统解析xml文件？最佳答案看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件，例如importorg.apache.spark.sql.SQLContextv

apache spark section databricks xml apache-spark

windows - C++ -'Stream' 未声明的标识符

这里的新手基本上我想将文件加载到输入流。我收到以下错误errorC2065:'Stream':undeclaredidentifier.#pragmaonce#include#include#include#includenamespacetest2{usingnamespaceSystem;usingnamespaceSystem::ComponentModel;usingnamespaceSystem::Collections;usingnamespaceSystem::Windows::Forms;usingnamespaceSystem::Data;usingnamespace

amp windows System openFileDialog1 openFileDialog visual-studio c++-cli

2 3 456 7 8