php - 来自xml的php utf-8解码返回问号

coder 2024-04-30 原文

我在使用xml时遇到了一些问题。我知道这是个很难回答的问题，但我找到的答案并不能解决我的问题。问题是，当我使用php domdocument在xml文件中添加e或_或其他特殊字符时，它会将e保存为xe9，将_保存为xe4。我不知道这是否可以，但当我想显示输出时，它会在这里显示问号。
我试了很多。就像在php domdocument中删除和添加de-xml头中的编码一样。我还尝试使用file_get_contents和php utf-8u decode来获取xml。我试过使用iso intead，但没有解决我的问题。相反，我有时会遇到php-xml解析错误。我一定做错了什么，但是什么？这是我的问题，我怎样才能解决这个问题。
我的XML文件如下所示：
XE9和XE4有黑色背景。

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <row id="1">
    <question>blah</question>
    <answer>blah</answer>
  </row>
  <row id="2">
    <question>xE9</question>
    <answer>xE4</answer>
  </row>
</root>

以及我的php xml类的一部分

function __construct($filePath) {
    $this->file = $filePath;
    $this->label = array('Vraag', 'Antwoord');
    $xmlStr = file_get_contents($filePath);
    $xmlStr = utf8_decode($xmlStr);
    $this->xmlDoc = new DOMDocument('1.0', 'UTF-8');
    $this->xmlDoc->preserveWhiteSpace = false;
    $this->xmlDoc->formatOutput = true;
    //$this->xmlDoc->load($filePath);   
    $this->xmlDoc->loadXML($xmlStr);
}

这是add new row函数

//creates new xml row and saves it in xml file
function addNewRow($question, $answer) {
    $nextAttr = $this->getNextRowId();
    $parentNode = $this->xmlDoc->documentElement;
    $rowNode = $this->xmlDoc->createElement('row');
    $rowNode = $parentNode->appendChild($rowNode);
    $rowNode->setAttribute('id', $nextAttr);    
    $q = $this->xmlDoc->createElement('question');
    $q = $rowNode->appendChild($q);
    $qText = $this->xmlDoc->createTextNode($question);
    $qText = $q->appendChild($qText);
    $a = $this->xmlDoc->createElement('answer');
    $a = $rowNode->appendChild($a);
    $aText = $this->xmlDoc->createTextNode($answer);
    $aText = $a->appendChild($aText);
    $this->xmlDoc->save($this->file);
}

一切正常，直到我加上特殊字符。这些都显示为问号。

最佳答案

好吧，下面的内容有点粗糙/冗长，特别是你已经做了很多尝试。只要试着保持新鲜的眼睛，想想一旦你在编码上犯了一个小错误，它往往已经被搞砸了。因此，正确理解哪些力学在这里起作用是很重要的。
我试图解决在php的domdocument中运行的一些机制。您可能会发现这很有趣或令人畏惧，甚至在最后，解决方案也非常简单，甚至不需要更改php代码，但我还是想解决这个问题，因为stackoverflow和php手册上没有太多的文档，有更多的参考资料是很好的，因为正确理解这一点很重要——正如我已经写过的那样。
因此，默认情况下，xml是utf-8格式的。utf-8几乎是当今互联网的完美选择。当然，这在任何情况下都不是完全正确的，但总的来说，这是一个安全的赌注。所以XML本身和它的默认编码UTF-8是非常好的。
这对domdocument意味着什么？只是在默认情况下，domdocument将采用这种编码，我们不需要关心它。下面是一个简单的演示，输出如下注释：

$doc = new DOMDocument();
$doc->save('php://output');
# <?xml version="1.0"?>

这个非常简短的示例显示了php对domdocument的默认utf-8编码。该文档甚至还没有包含根节点，但在xml声明中没有指定默认的xml utf-8编码：<?xml version="1.0"?>。
所以你可以说“但是我想要”，而且你肯定可以。这就是调用构造函数时domdocument的编码参数的用途：

$doc = new DOMDocument('1.0', 'UTF-8');
                               #####  Encoding Parameter
$doc->save('php://output');
# <?xml version="1.0" encoding="UTF-8"?>

如图所示，我们用作第一个（版本）和第二个（编码）参数的内容将被写出。所以，是的，我们可以做一些不被允许的事情。但是这里面允许什么？有一个xml版本afaik，它是1.0。因此，version参数必须始终为1.0。编码允许什么？XML规范说明XML Declaration，简言之，它应该是这些常见规范之一（应该，而不是必须）：UTF-8、UTF-16、ISO-10646-UCS-2、ISO-10646-UCS-4、ISO-8859-1到ISO-8859-9、ISO-2022-JP、shift-jis、EUC-JP。好吧，哇，这已经是一长串了。
所以让我们看看php的domdocument实际上允许我们：

$doc = new DOMDocument('♥♥ love, hugs and kisses ♥♥', 'UTF-8');
$doc->save('php://output');
# <?xml version="♥♥ love, hugs and kisses ♥♥" encoding="UTF-8"?>

编码工作正常，版本是示意性的，但它显示：这是使用编码为utf-8的unicode字符。现在，让我们将编码更改为其他内容：

$doc = new DOMDocument('♥♥ love, hugs and kisses ♥♥', 'ISO-8859-1');
$doc->save('php://output');
# <?xml version="&#9829;&#9829; love, hugs and kisses &#9829;&#9829;" encoding="ISO-8859-1"?>

因为unicode核心在iso-8859-1中没有位置，所以它们被替换为相应的数字html实体（♥）。如果我们直接在其中添加一个iso-8859-1字符，比如ö（php中的二进制字符串"\xF6"）会发生什么？

$doc = new DOMDocument("♥♥ l\xF6ve, hugs and kisses ♥♥", 'ISO-8859-1');
$doc->save('php://output');
# Warning: DOMDocument::save(): output conversion failed due to conv error, 
#          bytes 0xF6 0x76 0x65 0x2C
#                ^^^^  |    |    |
#                "ö"   v    e   space

这不起作用。domdocument告诉我们，我们提供的信息不能转换为iso-8859-1输出。这是预期的：domdocument预期给定的所有输入都是utf-8。所以这次让我们从Unicode中获取：

$doc = new DOMDocument('♥♥ löve, hugs and kisses ♥♥', 'ISO-8859-1');
$doc->save('php://output');
# <?xml version="&#9829;&#9829; l�ve, hugs and kisses &#9829;&#9829;" encoding="ISO-8859-1"?>

尽管钻石上有个问号，但现在看起来还不错。因为在我的计算机上，显示/输出是utf-8格式的，所以这里不能显示iso-8859-1ö字符。所以我的显示器用all the IANA characters sets代替了它。这是正确的，现在“哦”开始工作了。
到目前为止，这清楚地表明，您只能将utf-8编码的字符串传递到domdocument中，而这与您为该文档指定的xml编码无关。
因此，让我们用utf-8文档来打破这个规则，就像在您的问题中一样，添加一些非utf-8文本，例如在iso-8859-1 resp中。Windows-1252：

$doc = new DOMDocument('1.0', 'UTF-8');

$doc->appendChild($doc->createElement('root'))
    ->appendChild($doc->createElement('question'))
    ->appendChild($doc->createTextNode("l\xF6ve, hugs and kisses"));

$doc->save('php://output');
# <?xml version="1.0" encoding="UTF-8"?>
# <root><question>l�ve, hugs and kisses</question></root>

根据您查看输出的程序，它可能不会显示问号，而只显示“xf6”。我认为你的文件编辑器就是这样。
所以这也是解决方案：当您将字符串数据传入domdocument时，请确保它是utf-8编码的：

->appendChild($doc->createTextNode(utf8_encode("l\xF6ve, hugs and kisses")));
                                   ########### (works with ISO-8859-1 only (!))

# <?xml version="1.0" encoding="UTF-8"?>
# <root><question>löve, hugs and kisses</question></root>

或者在您的情况下，告诉浏览器您的网站期望使用utf-8。然后您不需要重新编码任何内容，因为您的浏览器已经用正确的编码发送数据。W3C已经为我建议您现在阅读的主题收集了一些有用的资源：
� Unicode Character 'REPLACEMENT CHARACTER' (U+FFFD)

关于php - 来自xml的php utf-8解码返回问号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16308192/

utf-8 问号 gt code php xml special-characters decode encode

有关php - 来自xml的php utf-8解码返回问号的更多相关文章

ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2
我有一个包含多个键的散列和一个字符串，该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么，如果包含，则返回它包含的键的值？例如，对于上面的h和s的例子，输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。最佳答案
ruby - Ruby 中的隐式返回值是怎么回事？ - 2
所以我开始关注ruby，很多东西看起来不错，但我对隐式return语句很反感。我理解默认情况下让所有内容返回self或nil但不是语句的最后一个值。对我来说，它看起来非常脆弱(尤其是)如果你正在使用一个不打算返回某些东西的方法(尤其是一个改变状态/破坏性方法的函数!)，其他人可能最终依赖于一个返回对方法的目的并不重要，并且有很大的改变机会。隐式返回有什么意义？有没有办法让事情变得更简单？总是有返回以防止隐含返回被认为是好的做法吗？我是不是太担心这个了？附言当人们想要从方法中返回特定的东西时，他们是否经常使用隐式返回，这不是让你组中的其他人更容易破坏彼此的代码吗？当然，记录一切并给出
ruby-on-rails - ruby 日期方程不返回预期的真值 - 2
为什么以下不同？Time.now.end_of_day==Time.now.end_of_day-0.days#falseTime.now.end_of_day.to_s==Time.now.end_of_day-0.days.to_s#true 最佳答案因为纳秒数不同:ruby-1.9.2-p180:014>(Time.now.end_of_day-0.days).nsec=>999999000ruby-1.9.2-p180:015>Time.now.end_of_day.nsec=>999999998
ruby - 从 String#split 返回的零长度字符串 - 2
在Ruby1.9.3(可能还有更早的版本，不确定)中，我试图弄清楚为什么Ruby的String#split方法会给我某些结果。我得到的结果似乎与我的预期相反。这是一个例子:"abcabc".split("b")#=>["a","ca","c"]"abcabc".split("a")#=>["","bc","bc"]"abcabc".split("c")#=>["ab","ab"]在这里，第一个示例返回的正是我所期望的。但在第二个示例中，我很困惑为什么#split返回零长度字符串作为返回数组的第一个值。这是什么原因呢？这是我所期望的:"abcabc".split("a")#=>["bc"
ruby - 为什么 Integer.respond_to?( :even? ) 返回 false？ - 2
我一直在研究RubyKoans，我发现about_open_classes.rbkoan很有趣。特别是他们修改Integer#even?方法的最后一个测试。我想尝试一下这个概念，所以我打开了Irb并尝试运行Integer.respond_to?(:even?)，但令我惊讶的是我得到了错误。然后我尝试了Fixnum.respond_to?(:even?)并得到了错误。我还尝试了Integer.respond_to?(:respond_to?)并得到了true，当我执行2.even?时，我也得到了true。我不知道发生了什么。谁能告诉我缺少什么？最佳答案
ruby - Time.to_i 是否总是以 UTC 返回自 EPOCH 以来的秒数？ - 2
无论时间在哪个时区表示，时区差异是否总是被忽略？直觉上，对于那些使用UTC+2的人来说，从EPOCH开始经过的秒数应该更高。然而，事实并非如此。最佳答案 Epoch基于utc时区https://en.wikipedia.org/wiki/Unix_time它与您当前所在的时区无关。关于ruby-Time.to_i是否总是以UTC返回自EPOCH以来的秒数？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.
ruby-on-rails - Ruby 流量控制 : throw an exception, 返回 nil 还是让它失败？ - 2
我在思考流量控制的最佳实践。我应该走哪条路？1)不要检查任何东西并让程序失败(更清晰的代码，自然的错误消息):defself.fetch(feed_id)feed=Feed.find(feed_id)feed.fetchend2)通过返回nil静默失败(但是，“CleanCode”说，你永远不应该返回null):defself.fetch(feed_id)returnunlessfeed_idfeed=Feed.find(feed_id)returnunlessfeedfeed.fetchend3)抛出异常(因为不按id查找feed是异常的):defself.fetch(feed_id
ruby - 可以正常中断的来自 Rake 的长时间运行的 shell 命令？ - 2
在几个项目中，我希望有一个类似rakeserver的rake任务，它将通过任何需要的方式开始为该应用程序提供服务。这是一个示例:task:serverdo%x{bundleexecrackup-p1234}end这行得通，但是当我准备停止它时，按Ctrl+c并没有正常关闭；它中断了Rake任务本身，它说rakeaborted!并给出堆栈跟踪。在某些情况下，我必须执行Ctrl+c两次。我可能可以用Signal.trap写一些东西来更优雅地中断它。有没有更简单的方法？最佳答案 trap('SIGINT'){puts"Yourmessa

php - 来自xml的php utf-8解码返回问号

有关php - 来自xml的php utf-8解码返回问号的更多相关文章

随机推荐