jjzjj

html-parsing

全部标签

php - 加载时间 : is it quicker to parse HTML with PHP's DOMDocument or with Regular Expressions?

我正在将我的Flickr帐户中的图像提取到我的网站,我使用了大约九行代码来创建一个可以提取图像的preg_match_all函数。我读过好几遍,通过DOM解析HTML会更好。就我个人而言,我发现通过DOM解析HTML更加复杂。我用PHP的DOMDocument编写了一个类似的函数来拉取图像,它大约有22行代码。创建花了一些时间,我不确定有什么好处。每个代码的页面加载时间大致相同,所以我不确定为什么要使用DOMDocument。DOMDocument是否比preg_match_all工作得更快?如果您有兴趣,我会向您展示我的代码(您可以看到DOMDocument代码有多长)://here

php - 类似 Java 的 PHP 的 Html 解析器

我一直在开发Java程序,通过使用各种html解析器(如Jericho、NekoHtml等)来解析网页的html源代码...现在我想用PHP语言开发解析器。所以在开始之前,我想知道是否有可用的html解析器,我可以使用PHP来解析html代码 最佳答案 查看DOMDocument.示例#1创建文档<?php$doc=newDOMDocument();$doc->loadHTML("<html><body>Test<br></body></html>

php - 正则表达式去除字符串中的外部 HTML 标签

我需要一个正则表达式来去除字符串中的外部/顶级HTML标记,但保留内部标记。$str="<div>Start<br/><span>test</span>end.</div>";进入$str="Start<br/><span>test</span>end.";还有$str="<asideid="main"class="one">Start<br/><span>test</span&

php - 解析器和 View 调用之间有什么区别?如何从 View 中检索数据? (通过,返回)

这两个调用有什么区别?解析和查看之间的一般区别是什么?什么时候使用parser->parse,什么时候使用load->view?$this->load->view('content',$data);$this->parser->parse('content',$data,FALSE);如果我有这个数组:$data=array('title'=>'HomePage','heading'=>'Heading');$this->parser->par

php - 使用正则表达式从网站的 HTML 源代码中提取内容

这个问题在这里已经有了答案:HowdoyouparseandprocessHTML/XMLinPHP?(31个答案)关闭7年前。我正在尝试修复以下代码。代码:$pageData=file_get_contents('111234-2.html');if(preg_match_all('/<a\s+onclick=["\']([^"\']+)["\']/i',$pageData,$links,PREG_PATTERN_ORDER))print_r(array_unique($links[1]));ret

php - 根据条件从已解析的 HTML 文档中删除 HTML 元素

我使用SimplePHPHTMLDOMParser解析了一个HTML文档。在已解析的文档中,有一个带有一些li标签的ul标签。其中一个li-tags包含我想删除的那些可怕的“添加这个”按钮之一。更糟糕的是,列表项没有类或ID,而且它并不总是在列表中的相同位置。所以没有简单的方法(如果我错了请纠正我)用解析器删除它。我想做的是在所有li元素中搜索字符串'addthis.com'并删除包含该字符串的任何元素。<ul><li>Foobar</li><li>addthis.com</li><!--HowdoIremovethis

php - 使用 PHP 从其他网站解析(无效)HTML

我正在尝试从以下URL解析以下HTML:http://md5.rednoize.com/?q=fbade9e36a3f36d3d676c1b808451dd7代码:$html=file_get_contents($url.$hash);$config=array('clean'=>'yes','output-html'=>'yes',);$tidy=tidy_parse_string($html,$config,'utf8');$tidy->cleanRepair();$dom=newDO

php - 检查链接交换

我已经与另一个站点进行了链接交换。3天后,网站删除了我的链接。是否有一个简单的php脚本可以帮助我控制链接交换并在我的链接被删除时通知我?我需要它尽可能简单,而不是整个广告。系统管理员。 最佳答案 如果您知道您的广告(链接)所在网页的URL,那么您可以使用SimpleHTMLDOMParser获取数组中该网页的所有链接,然后使用phpin_array函数来检查您的链接是否存在于该数组中。您可以使用crontab每天运行此脚本.//CreateDOMfromURL$html=file_get_html('http://www.

javascript - 如何在不使用 XmlService 的情况下解析 Google Apps 脚本中的 HTML 字符串?

这个问题已经存在:HowtoparseanHTMLstringusingCSSselectors?[duplicate]关闭去年。我想使用带有GoogleApps脚本的Google电子表格创建一个抓取工具。我知道这是可能的,并且我看过一些关于它的教程和主题。主要思想是使用:varhtml=UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Document_Object_Model').getContentText();vardoc=XmlService.parse(html);然后获取并使用这些元素。然而,方法XmlServ

javascript - 为什么服务器端 HTML 呈现比客户端更快?

我在一个大型网站上工作,我们正在将很多功能转移到客户端(Require.js、Backbone和Handlebars堆栈)。甚至还有关于可能将所有渲染移动到客户端的讨论。但是阅读一些文章,尤其是关于Twitter远离客户端呈现的文章,其中提到服务器端更快/更可靠,我开始产生疑问。我不明白从JSON和模板在JS中呈现相当简单的HTML小部件是如何在具有4-8GBRAM的双核CPU上的现代浏览器比在服务器端应用程序中制作数十个include慢。是否有任何与此相关的现实生活基准数据?此外,服务器端模板引擎解析HTML模板似乎不会比从Handlebars模板渲染相同的HTML代码更快,特别是如