lxml

python xml xpath查询使用带有ns的标签和属性

我一定是在做一些本质上错误的事情，我在SO上看到和搜索的每个例子似乎都表明这是可行的。我正在尝试使用带有lxmletree库的XPath搜索来解析garmintcx文件:3P2WK16-31[MP19]6:28-6:3813000Active2......我只想返回类型为PredefinedSpeedZone_t的SpeedZone元素。我以为我能做到:root=ET.parse(open('file.tcx'))xsi={'xsi':'http://www.garmin.com/xmlschemas/TrainingCenterDatabase/v2'}forspeed_zonein

python - 查找包含字符串的元素的xpath

我构建了一个小脚本，用于在页面中找到一些特定的字符串并返回包含该字符串的元素的xpath。目的是使用此xpath查找具有相同上下文的字符串。我正在使用这段代码:importrequestsfromlxmlimporthtmlpage=requests.get("http://www.w3schools.com/xpath/")tree=html.fromstring(page.text)result=tree.xpath('//*[.="XML"]')result[0]返回而且我不知道如何找到这个元素的XPath。我想要的字符串是:/html/body/div[4]/div/div[2

python xpath div code html xml lxml

java - 如何检测xml节点的数量？

检测文档中xml节点数的最佳方法是什么？下面是几个例子:1234...上面的例子有两个xml元素(2个Item)，但是无法检测到，例如，通过计算根之后第一个元素的出现次数(时间戳).这是一个更传统的例子，它可以:......或者，一个更模糊的例子，可能只有一个元素(父元素“Items”)——......在事先不知道结构的情况下，确定文档中xml节点数的最佳方法是什么？语言在这里并不重要，但更喜欢java或python。最佳答案 “根节点的重复主子元素的数量。”虽然描述可以解释，但从我的阅读方式来看，您可以将XML读入Element

java xml gt lt code python lxml

python - 通过元素树创建 xml 后解析时出现元素树错误

为什么这段代码创建的xml无法被python解析或读取？我有一段代码正在编写一个xml文件:idlist=list(set([d['type']fordinList]))##createlistofallIDnumbersidlist.sort()root=ET.Element("MarketData")foriinidlist:##iterateovereveryIDnumberdoc=ET.SubElement(root,'Item',typeID=str(i))##createchildforcurrentIDnumbertList=list(filter(lambdax:x['

时出树创 Price code lxml python xml parsing xml-parsing elementtree

python - lxml unicode实体解析问题

我按如下方式使用lxml来解析从另一个系统导出的XML文件:xmldoc=open(filename)etree.parse(xmldoc)但是我得到:lxml.etree.XMLSyntaxError:Entity'eacute'notdefined,line4495,column46显然它在unicode实体名称方面存在问题-但我该如何解决这个问题？通过open()或parse()？编辑:我忘记将我的DTD包含在同一个文件夹中-它现在就在那里并且有以下声明:并且在xmldoc中被引用(并且总是这样):但我仍然遇到同样的问题……DTD是否也需要在Python中声明？

unicode python code section eacute xml lxml

python - lxml 在解析时删除 <?xml ...> 标签？

我目前正在解析XML文档(添加元素、添加属性等)。所以我首先需要在处理它之前解析XML。然而，lxml似乎正在删除元素.例如fromlxmlimportetreetree=etree.fromstring('test',etree.XMLParser())printetree.tostring(tree)会导致test有谁知道为什么元素被删除？我认为编码标签是有效的XML。感谢您的宝贵时间。最佳答案 element是一个XML声明，所以它不是严格意义上的元素。它仅提供有关其下方XML树的信息。如果你需要用lxml打印出来，这里有一

amp python code section lxml xml

python - 如何在 Python 中将来自 Web 的原始 html 转换为可解析的 xml

我认为BeautifulSoup可以做到这一点，但它似乎并没有成功。您已经使用过什么方法，并且长期可靠？最佳答案您可以使用lxml库，特别是lxml.html它为您提供了一个ETree对象，然后您可以将其序列化为XML(以及其他).tostring()method.如果这在您的HTML上失败(它太破)，您可以使用ElementSoup(BeautifulSoup的扩展)构建一个lxml.html树。关于python-如何在Python中将来自Web的原始html转换为可解析的xml

何在 python section strong lxml html xml python-3.x

python - 无法正确解析具有 `pythons etree.iterparse()` 的巨大 xml 文件。代码中是否存在逻辑错误？

我想解析一个巨大的文件xml文件。这个巨大文件中的记录确实看起来像this。.通常文件看起来像这样record_1...record_n我写了一些代码，可以从这个文件中选择一段录音。如果我让代码运行(需要将近50分钟，包括在MySQL数据库中的存储)我注意到，有一条记录，接缝有将近一百万作者。这一定是错误的。我什至通过查看文件来检查它，确保文件中没有错误。这篇论文只有5或6个作者，所以dblp.xml一切都很好。所以我假设我的代码中存在逻辑错误。但我不知道这可能在哪里。也许有人可以告诉我，错误在哪里？代码在iflen(auth)>2000行停止。importsysimportMySQL

iterparse pythons 34 elem mydict python xml lxml elementtree

python - 使用 lxml 和路径解析 xml，但如果它有 xmlns 声明，则得到空列表

我有一个需要解析标签值的xml文件。元素的XPATH是"//provider"。我将如何使用lxml来解析这个标签？这是xml的开头:testmovieproviderja-JP以下是我尝试过的:>>>f=open(file)>>>xml=f.read()>>>node=etree.fromstring(xml)>>>provider=node.xpath('//provider')>>>provider[]#(Thisreturnsanemptyset,insteadoftheprovidername,'testmovieprovider'.) 最佳答案

python xmlns code provider gt xml xpath lxml

python - 使用 lxml 解析 html - 如何指定 1 - 3 位通配符以使我的代码不那么脆弱？

我正在尝试使用xml从yahoofinance中抓取“部门”和“行业”字段。我注意到hrefurl始终是http://biz.yahoo.com/ic/xyz.html，其中xyz是数字。您能否建议包含1位或多位数字的通配符的方法？我尝试了几种基于Google和堆栈搜索的方法，但没有任何效果。importlxml.htmlurl='http://finance.yahoo.com/q?s=AAPL'root=lxml.html.parse(url).getroot()forainroot.xpath('//a[@href="http://biz.yahoo.com/ic/'+3digi

python lxml href 39 yahoo xml xpath wildcard

123 4 5