jjzjj

htmlagilitypack

全部标签

c# - 使用 HtmlAgilityPack 进行 XML 解析

我在WebServiceworker角色上使用HtmlAgilityPack解析xml,但出现了问题。当我选择子节点“链接”时得到空字符。像这样的xml:http://www.webtekno.com/google/google-ve-razer-dan-oyun-konsolu.html我从rss获取链接的代码是:HtmlNodeCollectionnodeList=doc.DocumentNode.SelectNodes("//item");foreach(HtmlNodenodeinnodeList){stringnewsUri=node.ChildNodes["link"].I

c# - 使用 HtmlAgilityPack 获取 iframe 源

我正在尝试获取html文档中的所有iFrame源url。我尝试将HtmlAgilityPack与xpath一起使用-但我似乎没有获得源列表。HtmlAgilityPack.HtmlDocumentmyHtml=newHtmlDocument();myHtml.LoadHtml(htmlString);foreach(HtmlNodeframesrc)inmyHtml.DocumentNode.SelectNodes("//iframe/src")){srcCollection.add(framesrc);}我的xpath错了吗? 最佳答案

c# - 使用 html 敏捷包从 c# 中的 html 中提取图像 url 并将它们写入 xml 文件

我是c#的新手,我真的需要帮助解决以下问题。我希望从具有特定模式的网页中提取照片网址。例如,我希望提取所有具有以下模式name_412s.jpg的图像。我使用以下代码从html中提取图像,但我不知道如何调整它。publicvoidImages(){WebClientx=newWebClient();stringsource=x.DownloadString(@"http://www.google.com");HtmlAgilityPack.HtmlDocumentdocument=newHtmlAgilityPack.HtmlDocument();document.Load(sourc

c# - HtmlAgilityPack 获取一个DIV内的所有链接

我希望能够从一个div中获取2个链接。目前我可以选择一个,但是当有更多时它似乎不起作用。HtmlWebweb=newHtmlWeb();HtmlDocumentdoc=web.Load(url);HtmlNodenode=doc.DocumentNode.SelectSingleNode("//div[@class='myclass']");if(node!=null){foreach(HtmlNodetypeinnode.SelectNodes("//a@href")){recipe.type+=type.InnerText;}}elserecipe.type="Errorfetch

c# - 如何使用 HTMLAgilityPack 修复 html 标签(缺少 <open> 和 <close> 标签)

我有一个带有helloHihi的html所需输出:hellohi使用HTML敏捷包是否可以解决此类缺少结束和开始标记的类似问题? 最佳答案 该库不够智能,无法在您放置它的位置创建开头的p,但它足够智能,可以创建缺少的h1。通常,它总是会创建有效的HTML,但并不总是您所期望的那样。所以这段代码:HtmlDocumentdoc=newHtmlDocument();doc.Load(yourhtml);doc.Save(Console.Out);将转储这个:helloHihi这不是您想要的,但却是有效的HTML。您还可以添加这样的小技巧

c# - 通过 XPath 和 HtmlAgilityPack 获取属性值

我有一个HTML文档,我用XPath解析它。我想获取元素输入的值,但没有成功。我的HTML:我的代码:usingHtmlAgilityPack;HtmlAgilityPack.HtmlDocumentdoc;HtmlWebhw=newHtmlWeb();HtmlNodeCollectionnode=doc.DocumentNode.SelectNodes("//input/@value");strings=node[0].InnerText;所以我想得到这个值:“10743”(我不介意得到另一个带有答案的标签。) 最佳答案 可以在.

c# - 从 htmldocument :HTMLAgilityPack 中删除 html 节点

在我的代码中,我想删除没有src值的img标签。我正在使用HTMLAgilitypack的HtmlDocument对象。我发现没有src值的img并试图将其删除..但它给我错误Collectionwasmodified;枚举操作可能无法执行。谁能帮我这个?我使用的代码是:foreach(HtmlNodenodeindoc.DocumentNode.DescendantNodes()){if(node.Name.ToLower()=="img"){stringsrc=node.Attributes["src"].Value;if(string.IsNullOrEmpty(src)){no

c# - 通过 HtmlAgilityPack 获取属性的值

我想通过HtmlAgilityPack获取一个属性的值。HTML代码:我想获取最后一个href属性。我的C#代码:HtmlWebweb=newHtmlWeb();HtmlAgilityPack.HtmlDocumenthtmldoc=web.Load(Url);htmldoc.OptionFixNestedTags=true;varnavigator=(HtmlNodeNavigator)htmldoc.CreateNavigator();stringxpath="//link/@href";stringval=navigator.SelectSingleNode(xpath).Val

c# - htmlagilitypack 和动态内容问题

我想创建一个web__scraper__应用程序,我想用webbrowser控件、htmlagilitypack和xpath来完成。现在我设法创建了xpath生成器(我为此目的使用了webbrowser),它工作正常,但有时我无法获取动态(通过javascript或ajax)生成的内容。我还发现当webbrowser控件(实际上是IE浏览器)生成一些额外的标签,如“tbody”,同时再次htmlagilitypack`htmlWeb.Load(webBrowser.DocumentStream);`看不到它。另一个注意事项。我发现下面的代码实际上获取了当前的网页源代码,但我无法提供ht

c# - 使用 HTMLAgilityPack 选择具有属性数据 url 的元素

我正在写一个小的Download-Roboter,它正在自己搜索较低层的链接。我需要找到的是html页面中的所有链接(指向.jpg文件的链接以及指向.pgn、.pdf、.html、....-文件的链接)我正在使用html-agilitypack查找所有a-href链接。示例代码:foreach(HtmlNodelinkinhtmlDocument.DocumentNode.SelectNodes("//a[@href]")){HtmlAttributeattribute=link.Attributes["href"];links.Add(attribute.Value);}但我也想找到