我需要解析 HTML 文档(由 Microsoft Word 生成)的内容。遍历 DOM 以获取我需要的信息/内容,然后将所需内容输出为 CSV。我知道几乎没有脑外科手术。
现在,由于 PHP 不是我真正喜欢的东西,而且我的日程安排很紧,我打算使用来自 http://simplehtmldom.sourceforge.net/ 的 PHP Simple HTML DOM Parser
我注意到我的脚本不工作。经过反复试验,我意识到这是由 Word 生成的 HTML 文件的文件大小造成的(它们为 3MB,并且有多达 30,000 行 HTML!)。我假设对于可以使用 PHP Simple HTML DOM Parser 和 native PHP DOMDocument API 可以解析的文件有大小限制?如果是这种情况,有人知道这个限制是多少吗?我已经用谷歌搜索了 40 分钟,但没有成功。
也许我应该只使用 Node.js?
最佳答案
PHP“原生”DOMDocumentDocs和它的妹妹SimpleXMLElementDocs没有硬编码的大小限制,但它们受限于您允许 PHP 使用的内存(参见 PHP memory limitDocs )。
此外,您不能假定加载 100 MB 的 XML 或 HTML 文件会消耗相同大小的内存。它通常比文件大小的内存少得多(例如,五分之一或十分之一甚至,有点取决于 XML,所以你不能在这里只说因子 X,如果你想获得精确的,你需要自己衡量信息)。
你在问题中给出的文件大小 - 3 MB - 我会说相当小。对于 Internet 中的 HTML 文件来说可能不小,但对于 libxml 来说可能很小基于 PHP 扩展。使用 memory_get_usage()Docs 加载该文件时,您可以了解 PHP 中的内存使用情况。 .
如果您有非常大的 XML 文件 - 那么通常是 X(HT)ML - 比如说 1.5 GB - 使用 DOMDocument 进行解析将花费很多准备时间。然后使用 XMLReaderDocs将允许您在不将文档加载到内存(完全)的情况下解析文档。但这不是 Elixir ,因为您仍然有解析时间,但您可以更好地控制要解析的内容以及要跳过的部分,这样您就有更多空间来控制 PHP 用户空间中的优化。
PHP 库 PHP Simple HTML DOM ParserDocs也没有施加特定的大小限制。然而,它不是 PHP 的二进制扩展,而是在 PHP 用户领域。因此,您需要更好地了解该库的确切功能(请参阅 simple_html_dom.php in HEAD revision)。如果您查看代码,您会发现它是一个纯粹用 PHP 编写的解析器。这是因为它最初是为 PHP 4 编写的,其中 DOMDocument 和 DOMDocument::loadHTML 尚不存在。
您可以想象,PHP 扩展可以比用 PHP 代码编写的 PHP 库更好地管理内存。特别是当涉及到 HTML 文档对象模型的树结构时(这句话本身并不正确,但是开发这种内存优化需要大量工作和一个并不总是容易创建或维护的好设计)。
但是:很多年过去了,没有必要再使用那个库了。许多 PHP 用户并不知道这一点,他们发现使用这个曾经流行的库的代码示例已经过时。库 PHP Simple HTML DOM Parser 甚至仍然不时在 Stackoverflow 上被推荐。
所以我能给出的最好建议是:除非您不需要编写与 PHP 4 兼容的代码,否则根本不要使用该库并且不要关心它的限制。而是将您的代码移植到 DOMDocument::loadHTML()Docs .
关于PHP Native DOMDocument 和 Simple DOM Parser - 有大小限制吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15805805/
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据,而为了管理这些数据,HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下,每个Table起初只有一个Region,随着数据的不断写入,Region会自动进行拆分。刚拆分时,两个子Region都位于当前的RegionServer,但处于负载均衡的考虑,HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机:当1个region中的某个Store下所有StoreFile
我在一段非常简单的代码(如我所想)中得到了一个错误的值:org=4caseorgwhenorg=4val='H'endputsval=>nil请不要生气,我希望我错过了一些非常明显的东西,但我真的想不通。谢谢。 最佳答案 这是典型的Ruby错误。case有两种被调用的方法,一种是你传递一个东西作为分支的基础,另一种是你不传递的东西。如果您确实在case中指定了一个表达式语句然后评估所有其他条件并与===进行比较.在这种情况下org评估为false和org===false显然不是真的。所有其他情况也是如此,它们要么是真的,要么是假的。
我有以下内容:text.gsub(/(lower)(upper)/,'\1\2')我可以将\2替换为大写吗?类似于:sed-e's/\(abc\)/\U\1/'这在Ruby中可行吗? 最佳答案 查看gsub文档:str.gsub(模式){|匹配|block}→new_str在block形式中,当前匹配字符串作为参数传入,$1、$2、$`、$&、$'等变量将被适当设置。block返回的值将替换为每次调用的匹配项。"alowerupperb".gsub(/(lower)(upper)/){|s|$1+""+$2.upcase}
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭9年前。我正在创建一个Sinatra应用程序,它采用上传的CSV文件并将其内容放入哈希中。当我像这样在我的app.rb中引用这个散列时:hash=extract_values(path_to_filename)我不断收到此错误消息:undefinedmethod`bytesize'forHash:0x007fc5e28f2b90#object_idfile:utils.rblocation:bytesiz
2个数组的数组:a=[[1,2],[22,11],[18,9]]b=[[1,81]]用[0,0]填充第二个的最佳方法是什么,以便它们具有相同的大小? 最佳答案 b.fill(b.size..a.size-1){[0,0]} 关于ruby-使2个数组大小相同,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/29725615/
我收到“ArgumentError:数组大小太大”消息,代码如下:MAX_NUMBER=600_000_000my_array=Array.new(MAX_NUMBER)问题。Array.new函数在Ruby中的最大值是多少? 最佳答案 具有5亿个元素的数组的大小为2GiBytes,这取决于您使用的特定操作系统,通常是一个进程可以处理的最大值。换句话说:您的数组大于您的地址空间。因此,解决方案很明显:要么缩小数组(例如,将其分成block),要么扩大地址空间(在Linux中,您可以修补内核以获得3、3.5甚至4GiByte地址空间,
因此,在使用Sphinx时,搜索限制为1000个结果。但是,如果will_paginate生成的结果分页链接超过1000个,请不要考虑这一点,并提供指向超过1000/per_page的页面的链接。设置最大页数或类似内容的明显方法是什么?干杯。 最佳答案 我认为最好将参数:total_entries提交给方法paginate:@posts=Post.paginate(:page=>params[:page],:per_page=>30,:total_entries=>1000)will_paginate将仅为显示1000个结果所需的页
Model.exists?("lower(email)=?",params[:email].downcase)返回错误:ArgumentError(参数数量错误(2代表0..1)):是否可以使用不区分大小写的匹配来执行exists?? 最佳答案 您需要做的就是:Model.exists?(["lower(email)=?",params[:email].downcase])它正在寻找一个参数,但您提供了两个。使用数组形式和查找式条件应该可以满足您的需求。 关于ruby-on-rails-
给定一个数组['a','b','c','d','e','f'],我如何获得包含两个的所有子集的列表、三、四元素?我是Ruby的新手(从C#迁移过来),不确定“Ruby之道”是什么。 最佳答案 查看Array#combination然后是这样的:2.upto(4){|n|array.combination(n)} 关于ruby-使用Ruby在数组中查找大小为N的所有子集,我们在StackOverflow上找到一个类似的问题: https://stackoverf