jjzjj

detect_unicode

全部标签

python - 下载没有 Python unicode 错误的 html

我正在尝试将page_source下载到文件中。但是,每次我得到:UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xc2(orsomethingelse)inposition8304:ordinalnotinrange(128)我试过使用value.encode('utf-8'),但似乎每次它都会抛出相同的异常(除了手动尝试替换每个非ascii字符之外).有没有办法“预处理”html以将其转换为“可写”格式? 最佳答案 有第三方库如BeautifulSoup和lxml可以自动处理编码问题

sql-server - 在 SQL Server 2008 中从 xml 数据类型转换为 nvarchar 时,Unicode 文本被损坏?

在我们的数据库中,有关翻译的信息存储在XML列中,我们使用xml数据类型的.value()函数提取它。我们使用nvarchar(100)作为目标数据类型,但转换后值会损坏。示例代码如下:DECLARE@xXmlSET@x='ProbennameTipodaAmostraВидпробыTestaĵnomo'SELECTTR.lentry.value('@Lang','varchar(2)')ASLang,TR.lentry.value('.','nvarchar(100)')ASTextFROM@x.nodes('/TRANSLATIONS/TRANSLATION')ASTR(lent

python - lxml unicode实体解析问题

我按如下方式使用lxml来解析从另一个系统导出的XML文件:xmldoc=open(filename)etree.parse(xmldoc)但是我得到:lxml.etree.XMLSyntaxError:Entity'eacute'notdefined,line4495,column46显然它在unicode实体名称方面存在问题-但我该如何解决这个问题?通过open()或parse()?编辑:我忘记将我的DTD包含在同一个文件夹中-它现在就在那里并且有以下声明:并且在xmldoc中被引用(并且总是这样):但我仍然遇到同样的问题……DTD是否也需要在Python中声明?

c++ - 我可以将 libxml2 与 unicode 一起使用吗?

我可以将libxml2与unicode一起使用吗?我想读写用unicode编写的xml文件,是否可以将libxml2与c++一起使用? 最佳答案 libxml2在内部使用utf8编码来存储值,并将使用iconv将输入从指定编码(在xml编码声明中)转换为utf8。所以是的,libxml2在某种意义上可以使用unicode。但如果您真正的问题是:libxml2是否接受wchar_t*作为输入,那么答案是否定的。您必须将其转换为8位编码(utf8可能是更安全的选择,因为它可以对每个unicode代码点进行编码)。

python - 从 Unicode 字符串创建 xml 节点(不支持编码声明)?

我有一个数据库字段,它将XML文档存储为Unicode。但是,当我获取该字段并尝试启动一个lxml节点时,出现以下错误:node=etree.fromstring(self.xml)ValueError:Unicodestringswithencodingdeclarationarenotsupported.PleaseusebytesinputorXMLfragmentswithoutdeclaration.我当前的文本(self.xml)包含日语字符等。我将如何创建节点? 最佳答案 如果你有unicode,你可以为lxml指定u

xml - 查看 Unicode 字符串的八进制编码(浏览器或 OSX 工具)

有一个不可见的字符破坏了我的XML解析器。c&XML声称是UTF-8,但是当我尝试使用时我收到这条友好的信息:ERROR:javax.servlet.jsp.JspException:java.io.CharConversionException:illegalutf8encodingat(187)我已经找到了问题的根源。它是位于“c”和“&”之间的不可见字符。我想知道更多关于这个角色的信息,但IntelliJ似乎无法显示隐藏的角色。..我想我在网上看到了一个可以将Unicode字符转换为八进制值的工具,但我找不到了。如果有我需要下载的工具就好了。有什么建议吗?好的,friend告诉我

html - 如何使用 XSLT 将 HTML 百分比编码转换为 Unicode?

网上有大量关于此的条目和答案,但它们都与我需要的方向相反。从我的iTunesXML中,我有数千个百分比编码的条目,使用多种语言,我试图使用XSLT样式表将它们转换为Unicode文本。除了追踪每个字符并进行替换之外,我是否缺少任何功能或过程?这是我正在使用的一些例子的小样本,第一行是XML字符串值,下一行是我试图生成并输出到文本文件的基本文本。/iTunes/iTunes%20Music/Droit%20devant/L'odysse%CC%81e.mp3/iTunes/iTunesMusic/Droitdevant/L'odyssée.mp3A%CC%80%20la%20Pe%CC%

Python 的 libxml2 无法解析 unicode 字符串

好的,Python的libxml2绑定(bind)的文档确实是****。我的问题:XML文档存储在Python中的字符串变量中。该字符串是Unicode的实例,其中包含非ASCII字符。我想用libxml2解析它,看起来像这样:#-*-coding:utf-8-*-importlibxml2DOC=u"""Bäääh!"""xml_doc=libxml2.parseDoc(DOC)结果是:Traceback(mostrecentcalllast):File"test.py",line13,inxml_doc=libxml2.parseDoc(DOC)File"c:\Python26\l

java - 流异常 : An invalid XML character (Unicode: 0x1a)

我正在使用XStream将用户对象保存在文件中。privatevoidstore(){XStreamxStream=newXStream(newDomDriver("UTF-8"));xStream.setMode(XStream.XPATH_ABSOLUTE_REFERENCES);xStream.alias("configuration",Configuration.class);xStream.alias("user",User.class);synchronized(ConfigurationDAOImpl.class){try{xStream.toXML(configurat

java - 使用 XSLT 转换 XML 和保留 Unicode 字符

我的XSLT转换几个月来一直很成功,直到我遇到一个带有Unicode字符(很可能是表情符号)的XML文件。我需要保留Unicode,但XSLT正在将其转换为HTML实体。我认为将编码设置为UTF-8可以解决我的问题,但我仍然遇到问题。感谢任何帮助。代码:privatebyte[]transform(InputStreamstream)throwsException{System.setProperty("javax.xml.transform.TransformerFactory","org.apache.xalan.processor.TransformerFactoryImpl")