jjzjj

php - 来自xml的php utf-8解码返回问号

coder 2024-04-30 原文

我在使用xml时遇到了一些问题。我知道这是个很难回答的问题,但我找到的答案并不能解决我的问题。问题是,当我使用php domdocument在xml文件中添加e或_或其他特殊字符时,它会将e保存为xe9,将_保存为xe4。我不知道这是否可以,但当我想显示输出时,它会在这里显示问号。
我试了很多。就像在php domdocument中删除和添加de-xml头中的编码一样。我还尝试使用file_get_contents和php utf-8u decode来获取xml。我试过使用iso intead,但没有解决我的问题。相反,我有时会遇到php-xml解析错误。我一定做错了什么,但是什么?这是我的问题,我怎样才能解决这个问题。
我的XML文件如下所示:
XE9和XE4有黑色背景。

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <row id="1">
    <question>blah</question>
    <answer>blah</answer>
  </row>
  <row id="2">
    <question>xE9</question>
    <answer>xE4</answer>
  </row>
</root>

以及我的php xml类的一部分
function __construct($filePath) {
    $this->file = $filePath;
    $this->label = array('Vraag', 'Antwoord');
    $xmlStr = file_get_contents($filePath);
    $xmlStr = utf8_decode($xmlStr);
    $this->xmlDoc = new DOMDocument('1.0', 'UTF-8');
    $this->xmlDoc->preserveWhiteSpace = false;
    $this->xmlDoc->formatOutput = true;
    //$this->xmlDoc->load($filePath);   
    $this->xmlDoc->loadXML($xmlStr);
}       

这是add new row函数
//creates new xml row and saves it in xml file
function addNewRow($question, $answer) {
    $nextAttr = $this->getNextRowId();
    $parentNode = $this->xmlDoc->documentElement;
    $rowNode = $this->xmlDoc->createElement('row');
    $rowNode = $parentNode->appendChild($rowNode);
    $rowNode->setAttribute('id', $nextAttr);    
    $q = $this->xmlDoc->createElement('question');
    $q = $rowNode->appendChild($q);
    $qText = $this->xmlDoc->createTextNode($question);
    $qText = $q->appendChild($qText);
    $a = $this->xmlDoc->createElement('answer');
    $a = $rowNode->appendChild($a);
    $aText = $this->xmlDoc->createTextNode($answer);
    $aText = $a->appendChild($aText);
    $this->xmlDoc->save($this->file);
}

一切正常,直到我加上特殊字符。这些都显示为问号。

最佳答案

好吧,下面的内容有点粗糙/冗长,特别是你已经做了很多尝试。只要试着保持新鲜的眼睛,想想一旦你在编码上犯了一个小错误,它往往已经被搞砸了。因此,正确理解哪些力学在这里起作用是很重要的。
我试图解决在php的domdocument中运行的一些机制。您可能会发现这很有趣或令人畏惧,甚至在最后,解决方案也非常简单,甚至不需要更改php代码,但我还是想解决这个问题,因为stackoverflow和php手册上没有太多的文档,有更多的参考资料是很好的,因为正确理解这一点很重要——正如我已经写过的那样。
因此,默认情况下,xml是utf-8格式的。utf-8几乎是当今互联网的完美选择。当然,这在任何情况下都不是完全正确的,但总的来说,这是一个安全的赌注。所以XML本身和它的默认编码UTF-8是非常好的。
这对domdocument意味着什么?只是在默认情况下,domdocument将采用这种编码,我们不需要关心它。下面是一个简单的演示,输出如下注释:

$doc = new DOMDocument();
$doc->save('php://output');
# <?xml version="1.0"?>

这个非常简短的示例显示了php对domdocument的默认utf-8编码。该文档甚至还没有包含根节点,但在xml声明中没有指定默认的xml utf-8编码:<?xml version="1.0"?>
所以你可以说“但是我想要”,而且你肯定可以。这就是调用构造函数时domdocument的编码参数的用途:
$doc = new DOMDocument('1.0', 'UTF-8');
                               #####  Encoding Parameter
$doc->save('php://output');
# <?xml version="1.0" encoding="UTF-8"?>

如图所示,我们用作第一个(版本)和第二个(编码)参数的内容将被写出。所以,是的,我们可以做一些不被允许的事情。但是这里面允许什么?有一个xml版本afaik,它是1.0。因此,version参数必须始终为1.0。编码允许什么?XML规范说明XML Declaration,简言之,它应该是这些常见规范之一(应该,而不是必须):UTF-8、UTF-16、ISO-10646-UCS-2、ISO-10646-UCS-4、ISO-8859-1到ISO-8859-9、ISO-2022-JP、shift-jis、EUC-JP。好吧,哇,这已经是一长串了。
所以让我们看看php的domdocument实际上允许我们:
$doc = new DOMDocument('♥♥ love, hugs and kisses ♥♥', 'UTF-8');
$doc->save('php://output');
# <?xml version="♥♥ love, hugs and kisses ♥♥" encoding="UTF-8"?>

编码工作正常,版本是示意性的,但它显示:这是使用编码为utf-8的unicode字符。现在,让我们将编码更改为其他内容:
$doc = new DOMDocument('♥♥ love, hugs and kisses ♥♥', 'ISO-8859-1');
$doc->save('php://output');
# <?xml version="&#9829;&#9829; love, hugs and kisses &#9829;&#9829;" encoding="ISO-8859-1"?>

因为unicode核心在iso-8859-1中没有位置,所以它们被替换为相应的数字html实体(&#9829;)。如果我们直接在其中添加一个iso-8859-1字符,比如ö(php中的二进制字符串"\xF6")会发生什么?
$doc = new DOMDocument("♥♥ l\xF6ve, hugs and kisses ♥♥", 'ISO-8859-1');
$doc->save('php://output');
# Warning: DOMDocument::save(): output conversion failed due to conv error, 
#          bytes 0xF6 0x76 0x65 0x2C
#                ^^^^  |    |    |
#                "ö"   v    e   space

这不起作用。domdocument告诉我们,我们提供的信息不能转换为iso-8859-1输出。这是预期的:domdocument预期给定的所有输入都是utf-8。所以这次让我们从Unicode中获取:
$doc = new DOMDocument('♥♥ löve, hugs and kisses ♥♥', 'ISO-8859-1');
$doc->save('php://output');
# <?xml version="&#9829;&#9829; l�ve, hugs and kisses &#9829;&#9829;" encoding="ISO-8859-1"?>

尽管钻石上有个问号,但现在看起来还不错。因为在我的计算机上,显示/输出是utf-8格式的,所以这里不能显示iso-8859-1ö字符。所以我的显示器用all the IANA characters sets代替了它。这是正确的,现在“哦”开始工作了。
到目前为止,这清楚地表明,您只能将utf-8编码的字符串传递到domdocument中,而这与您为该文档指定的xml编码无关。
因此,让我们用utf-8文档来打破这个规则,就像在您的问题中一样,添加一些非utf-8文本,例如在iso-8859-1 resp中。Windows-1252:
$doc = new DOMDocument('1.0', 'UTF-8');

$doc->appendChild($doc->createElement('root'))
    ->appendChild($doc->createElement('question'))
    ->appendChild($doc->createTextNode("l\xF6ve, hugs and kisses"));

$doc->save('php://output');
# <?xml version="1.0" encoding="UTF-8"?>
# <root><question>l�ve, hugs and kisses</question></root>

根据您查看输出的程序,它可能不会显示问号,而只显示“xf6”。我认为你的文件编辑器就是这样。
所以这也是解决方案:当您将字符串数据传入domdocument时,请确保它是utf-8编码的:
->appendChild($doc->createTextNode(utf8_encode("l\xF6ve, hugs and kisses")));
                                   ########### (works with ISO-8859-1 only (!))

# <?xml version="1.0" encoding="UTF-8"?>
# <root><question>löve, hugs and kisses</question></root>

或者在您的情况下,告诉浏览器您的网站期望使用utf-8。然后您不需要重新编码任何内容,因为您的浏览器已经用正确的编码发送数据。W3C已经为我建议您现在阅读的主题收集了一些有用的资源:
� Unicode Character 'REPLACEMENT CHARACTER' (U+FFFD)

关于php - 来自xml的php utf-8解码返回问号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16308192/

有关php - 来自xml的php utf-8解码返回问号的更多相关文章

  1. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  2. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  3. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  4. ruby - Ruby 中的隐式返回值是怎么回事? - 2

    所以我开始关注ruby​​,很多东西看起来不错,但我对隐式return语句很反感。我理解默认情况下让所有内容返回self或nil但不是语句的最后一个值。对我来说,它看起来非常脆弱(尤其是)如果你正在使用一个不打算返回某些东西的方法(尤其是一个改变状态/破坏性方法的函数!),其他人可能最终依赖于一个返回对方法的目的并不重要,并且有很大的改变机会。隐式返回有什么意义?有没有办法让事情变得更简单?总是有返回以防止隐含返回被认为是好的做法吗?我是不是太担心这个了?附言当人们想要从方法中返回特定的东西时,他们是否经常使用隐式返回,这不是让你组中的其他人更容易破坏彼此的代码吗?当然,记录一切并给出

  5. ruby-on-rails - ruby 日期方程不返回预期的真值 - 2

    为什么以下不同?Time.now.end_of_day==Time.now.end_of_day-0.days#falseTime.now.end_of_day.to_s==Time.now.end_of_day-0.days.to_s#true 最佳答案 因为纳秒数不同:ruby-1.9.2-p180:014>(Time.now.end_of_day-0.days).nsec=>999999000ruby-1.9.2-p180:015>Time.now.end_of_day.nsec=>999999998

  6. ruby - 从 String#split 返回的零长度字符串 - 2

    在Ruby1.9.3(可能还有更早的版本,不确定)中,我试图弄清楚为什么Ruby的String#split方法会给我某些结果。我得到的结果似乎与我的预期相反。这是一个例子:"abcabc".split("b")#=>["a","ca","c"]"abcabc".split("a")#=>["","bc","bc"]"abcabc".split("c")#=>["ab","ab"]在这里,第一个示例返回的正是我所期望的。但在第二个示例中,我很困惑为什么#split返回零长度字符串作为返回数组的第一个值。这是什么原因呢?这是我所期望的:"abcabc".split("a")#=>["bc"

  7. ruby - 为什么 Integer.respond_to?( :even? ) 返回 false? - 2

    我一直在研究RubyKoans,我发现about_open_classes.rbkoan很有趣。特别是他们修改Integer#even?方法的最后一个测试。我想尝试一下这个概念,所以我打开了Irb并尝试运行Integer.respond_to?(:even?),但令我惊讶的是我得到了错误。然后我尝试了Fixnum.respond_to?(:even?)并得到了错误。我还尝试了Integer.respond_to?(:respond_to?)并得到了true,当我执行2.even?时,我也得到了true。我不知道发生了什么。谁能告诉我缺少什么? 最佳答案

  8. ruby - Time.to_i 是否总是以 UTC 返回自 EPOCH 以来的秒数? - 2

    无论时间在哪个时区表示,时区差异是否总是被忽略?直觉上,对于那些使用UTC+2的人来说,从EPOCH开始经过的秒数应该更高。然而,事实并非如此。 最佳答案 Epoch基于utc时区https://en.wikipedia.org/wiki/Unix_time它与您当前所在的时区无关。 关于ruby-Time.to_i是否总是以UTC返回自EPOCH以来的秒数?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.

  9. ruby-on-rails - Ruby 流量控制 : throw an exception, 返回 nil 还是让它失败? - 2

    我在思考流量控制的最佳实践。我应该走哪条路?1)不要检查任何东西并让程序失败(更清晰的代码,自然的错误消息):defself.fetch(feed_id)feed=Feed.find(feed_id)feed.fetchend2)通过返回nil静默失败(但是,“CleanCode”说,你永远不应该返回null):defself.fetch(feed_id)returnunlessfeed_idfeed=Feed.find(feed_id)returnunlessfeedfeed.fetchend3)抛出异常(因为不按id查找feed是异常的):defself.fetch(feed_id

  10. ruby - 可以正常中断的来自 Rake 的长时间运行的 shell 命令? - 2

    在几个项目中,我希望有一个类似rakeserver的rake任务,它将通过任何需要的方式开始为该应用程序提供服务。这是一个示例:task:serverdo%x{bundleexecrackup-p1234}end这行得通,但是当我准备停止它时,按Ctrl+c并没有正常关闭;它中断了Rake任务本身,它说rakeaborted!并给出堆栈跟踪。在某些情况下,我必须执行Ctrl+c两次。我可能可以用Signal.trap写一些东西来更优雅地中断它。有没有更简单的方法? 最佳答案 trap('SIGINT'){puts"Yourmessa

随机推荐