我在大型 xml 文件的处理时间方面遇到了这个问题。总的来说,我的意思是平均 600MB。 目前,解析数据并将其插入数据库大约需要 50 - 60 分钟。 我想就如何改善处理时间征求意见?就像减少到 20 分钟。
因为根据当前时间,我需要 2.5 个月的时间才能将 xml 中的内容填充到数据库中。顺便说一下,我有 3000 多个 xml 文件,平均大小为 600mb。我的 php 脚本在命令行中通过 cron 作业。
我也阅读了其他类似下面的问题,但我还没有找到任何想法。 What is the fastest XML parser in PHP?
我看到有些人已经解析了最大 2GB 的文件。我想知道处理时间有多长。
希望大家多多帮忙。 将不胜感激。 谢谢。
我有这个代码:
$handler = $this;
$parser = xml_parser_create('UTF-8');
xml_set_object($parser, $handler);
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, false);
xml_set_element_handler($parser, "startElement", "endElement");
xml_set_character_data_handler($parser, "cdata");
$fp = fopen($xmlfile, 'r');
while (!feof($fp)) {
while (($data = fread($fp, 71680))){
}
}
我首先将解析数据放在一个临时数组中。 我的 mysql 插入命令在 endElement 函数内。 有一个特定的结束标记来触发我对数据库的插入命令。
感谢您的回复....
最佳答案
在没有看到任何代码的情况下,我首先要建议的是不要使用 DOM 或 SimpleXMLElement,因为它们会将整个内容加载到内存中。
你需要使用像XMLReader这样的流解析器.
因为您已经在使用流解析器,您不会从更改解析器中获得巨大 yield (老实说,我不知道 XML Parser 和 XMLReader 之间的速度差异,因为后者使用 libxml,它可能更好,但可能不值得)。
接下来要看的是您是否在代码中做任何愚蠢的事情;为此,我们需要更全面地了解您是如何实现的。
你说你将数据放在一个临时数组中,并在到达结束标记时调用 MySQL insert。你在使用准备好的陈述吗?您是否使用事务来批量执行多个插入操作?
不过,解决瓶颈的正确方法是对代码运行分析器。我最喜欢的工作工具是 xhProf with XHGui .这将告诉您正在运行哪些函数、运行了多少次、运行了多长时间以及它们消耗了多少内存(并且可以在一个漂亮的调用图中显示所有这些,非常有用)。
使用 GitHub 的自述文件中的说明。这是一个 tutorial和另一个 useful tutorial (请记住,最后一个是针对没有我链接到的 XHGui 扩展的探查器的)。
关于php - 减少在 php 中解析大型 xml 文件的处理时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11983841/
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta