jjzjj

Java XMLStreamWriter : Outputting Unicode extended characters (non-BMP)

coder 2024-04-02 原文

有谁知道如何使用 Java 的 XMLStreamWriter 正确输出扩展字符(非 BMP,多于 1 个 char)?例如,尝试输出 Unicode U+10480 ?:

import java.io.OutputStreamWriter;
import java.nio.charset.StandardCharsets;

import javax.xml.stream.XMLOutputFactory;
import javax.xml.stream.XMLStreamException;
import javax.xml.stream.XMLStreamWriter;

public class XmlStreamWriterExtendedCharactersFail {
    public static void main(String[] args) throws XMLStreamException {
        String inlineStr = "inlineStr = ?";
        // create string using StringBuilder to avoid Java file encoding confusion:
        String sbStr = new StringBuilder("sbStr = ").appendCodePoint(0x10480).toString();
        assert sbStr.equals(inlineStr);
        System.out.println(sbStr);

        OutputStreamWriter outWriter = new OutputStreamWriter(System.out,
                StandardCharsets.UTF_8.newEncoder());
        XMLStreamWriter writer = XMLOutputFactory.newFactory()
                .createXMLStreamWriter(outWriter);
        writer.writeStartDocument("UTF-8", "1.1");
        writer.writeStartElement("el");
        writer.writeCharacters(sbStr);
        writer.writeEndElement();
        writer.writeEndDocument();
        writer.close();
    }
}

结果:

sbStr = ?
<?xml version="1.1" encoding="UTF-8"?><el>sbStr = &#xd801;&#xdc80;</el>

请注意,�� 是无效代码点,在使用 SAX 解析时会导致错误。

预期输出:

sbStr = ?
<?xml version="1.1" encoding="UTF-8"?><el>sbStr = ?</el>

sbStr = ⣰ 在紧要关头也可以,但第一个更好。

最佳答案

请注意,Apache Commons 的 StringEscapeUtils.escapeXML 在 3.0 之前的版本中也存在此问题。

我围绕 XMLStreamWriter 创建了以下包装器作为解决我的问题的方法。它使用 Apache Commons 转义字符数据并将其直接写入底层 Writer

import java.io.IOException;
import java.io.Writer;
import java.nio.CharBuffer;

import javax.xml.namespace.NamespaceContext;
import javax.xml.stream.FactoryConfigurationError;
import javax.xml.stream.XMLOutputFactory;
import javax.xml.stream.XMLStreamException;
import javax.xml.stream.XMLStreamWriter;

import org.apache.commons.lang3.StringEscapeUtils;
import org.apache.commons.lang3.text.translate.CharSequenceTranslator;

public class UnicodeXMLStreamWriter implements XMLStreamWriter {
    private XMLStreamWriter xmlSW;
    private Writer writer;
    private CharSequenceTranslator characterEscapor = StringEscapeUtils.ESCAPE_XML11;

    public static UnicodeXMLStreamWriter newInstance(Writer writer) throws XMLStreamException, FactoryConfigurationError {
        return newInstance(writer, XMLOutputFactory.newFactory());
    }

    public static UnicodeXMLStreamWriter newInstance(Writer writer, XMLOutputFactory factory) throws XMLStreamException {
        XMLStreamWriter xmlSW = factory.createXMLStreamWriter(writer);
        return new UnicodeXMLStreamWriter(writer, xmlSW);
    }

    public UnicodeXMLStreamWriter(Writer writer, XMLStreamWriter xmlSW) {
        this.writer = writer;
        this.xmlSW = xmlSW;
    }

    public void writeCharacters(String text) throws XMLStreamException {
        // finish writing start element
        xmlSW.writeCharacters("");
        xmlSW.flush();
        try {
            characterEscapor.translate(text, writer);
        } catch (IOException e) {
            throw new XMLStreamException(e);
        }
    }

    public void writeCharacters(char[] text, int start, int len)
            throws XMLStreamException {
        // finish writing start element
        xmlSW.writeCharacters("");
        xmlSW.flush();
        try {
            characterEscapor.translate(CharBuffer.wrap(text, start, len), writer);
        } catch (IOException e) {
            throw new XMLStreamException(e);
        }
    }

    //////////////// REMAINING METHODS ARE DELEGATES to xmlSW ////////////////

    public void writeStartElement(String localName) throws XMLStreamException {
        xmlSW.writeStartElement(localName);
    }

    public void writeStartElement(String namespaceURI, String localName)
            throws XMLStreamException {
        xmlSW.writeStartElement(namespaceURI, localName);
    }

    public void writeStartElement(String prefix, String localName,
            String namespaceURI) throws XMLStreamException {
        xmlSW.writeStartElement(prefix, localName, namespaceURI);
    }

    public void writeEmptyElement(String namespaceURI, String localName)
            throws XMLStreamException {
        xmlSW.writeEmptyElement(namespaceURI, localName);
    }

    public void writeEmptyElement(String prefix, String localName,
            String namespaceURI) throws XMLStreamException {
        xmlSW.writeEmptyElement(prefix, localName, namespaceURI);
    }

    public void writeEmptyElement(String localName) throws XMLStreamException {
        xmlSW.writeEmptyElement(localName);
    }

    public void writeEndElement() throws XMLStreamException {
        xmlSW.writeEndElement();
    }

    public void writeEndDocument() throws XMLStreamException {
        xmlSW.writeEndDocument();
    }

    public void close() throws XMLStreamException {
        xmlSW.close();
    }

    public void flush() throws XMLStreamException {
        xmlSW.flush();
    }

    public void writeAttribute(String localName, String value)
            throws XMLStreamException {
        xmlSW.writeAttribute(localName, value);
    }

    public void writeAttribute(String prefix, String namespaceURI,
            String localName, String value) throws XMLStreamException {
        xmlSW.writeAttribute(prefix, namespaceURI, localName, value);
    }

    public void writeAttribute(String namespaceURI, String localName,
            String value) throws XMLStreamException {
        xmlSW.writeAttribute(namespaceURI, localName, value);
    }

    public void writeNamespace(String prefix, String namespaceURI)
            throws XMLStreamException {
        xmlSW.writeNamespace(prefix, namespaceURI);
    }

    public void writeDefaultNamespace(String namespaceURI)
            throws XMLStreamException {
        xmlSW.writeDefaultNamespace(namespaceURI);
    }

    public void writeComment(String data) throws XMLStreamException {
        xmlSW.writeComment(data);
    }

    public void writeProcessingInstruction(String target)
            throws XMLStreamException {
        xmlSW.writeProcessingInstruction(target);
    }

    public void writeProcessingInstruction(String target, String data)
            throws XMLStreamException {
        xmlSW.writeProcessingInstruction(target, data);
    }

    public void writeCData(String data) throws XMLStreamException {
        xmlSW.writeCData(data);
    }

    public void writeDTD(String dtd) throws XMLStreamException {
        xmlSW.writeDTD(dtd);
    }

    public void writeEntityRef(String name) throws XMLStreamException {
        xmlSW.writeEntityRef(name);
    }

    public void writeStartDocument() throws XMLStreamException {
        xmlSW.writeStartDocument();
    }

    public void writeStartDocument(String version) throws XMLStreamException {
        xmlSW.writeStartDocument(version);
    }

    public void writeStartDocument(String encoding, String version)
            throws XMLStreamException {
        xmlSW.writeStartDocument(encoding, version);
    }

    public String getPrefix(String uri) throws XMLStreamException {
        return xmlSW.getPrefix(uri);
    }

    public void setPrefix(String prefix, String uri) throws XMLStreamException {
        xmlSW.setPrefix(prefix, uri);
    }

    public void setDefaultNamespace(String uri) throws XMLStreamException {
        xmlSW.setDefaultNamespace(uri);
    }

    public void setNamespaceContext(NamespaceContext context)
            throws XMLStreamException {
        xmlSW.setNamespaceContext(context);
    }

    public NamespaceContext getNamespaceContext() {
        return xmlSW.getNamespaceContext();
    }

    public Object getProperty(String name) throws IllegalArgumentException {
        return xmlSW.getProperty(name);
    }
}

使用它会产生所需的输出。现在提交错误报告...

关于Java XMLStreamWriter : Outputting Unicode extended characters (non-BMP),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28649344/

有关Java XMLStreamWriter : Outputting Unicode extended characters (non-BMP)的更多相关文章

  1. ruby-on-rails - ruby rails : Unit Testing non activerecord models and still load fixtures - 2

    我可能遗漏了一些东西,但我陷入了这种情况:我有一个非activerecord模型,我想对其进行测试。我从Test::Unit::TestCase派生了它的测试用例类。但是,模型的测试用例类在其自身内部使用了其他activerecord模型类,我想为它们加载固定装置。我的问题是fixtures类方法仅在我从ActiveSupport::TestCase继承测试用例类时才可用(它在ActiveRecord::TestFixtures包含在ActiveSupport::TestCase中)。任何帮助,因为运行测试都会给我错误:未定义的方法“fixtures”(这是可以理解的),如果我从Act

  2. ruby - 错误 "non-absolute home"通过网络 :SSH - 2

    有问题的代码Net::SSH.start('servername','user')这将返回“非绝对主页”。“用户”实际上有一个主目录。一种建议的方法是使用IdentityFile的完整路径修改~/.ssh/config。这并没有解决问题。其中最疯狂的部分是,如果通过irb或控制台调用,代码可以正常工作。当我们尝试从类方法(使用相同的代码)中调用它时,它会返回“非绝对主页”错误。“用户”也可以通过命令行ssh进入服务器而不会出现问题。服务器正在运行Ubuntu。更新感谢@Phrogz-解决方法是将ENV['HOME']设置为'/home/deploy'。但是,我还没有弄清楚为什么$HOM

  3. ruby-on-rails - Rails 和 attr_accessible : is there a way to raise an exception if a non-mass-assignable attribute is mass-assigned? - 2

    如果尝试批量分配attr_accessible不允许的属性,是否有办法让Rails引发错误?这在开发中会很方便,可以提醒我为什么我Shiny的新模型不起作用,也有助于登录生产环境以检测恶意事件。我正在使用Rails2.3.8,但可能很快就会迁移到3。 最佳答案 从Rails3.2开始,这不再需要monkeypatching——rails现在提供了这种行为。将其放入development.rb和test.rb:config.active_record.mass_assignment_sanitizer=:strict

  4. ruby-on-rails - 弃用警告 : Dangerous query method (method whose arguments are used as raw SQL) called with non-attribute argument(s) - 2

    我将我的Rails5.1.4应用更新到了5.2.0。我的一个模型中有以下范围:scope:by_category,lambda{|category_slug|category_ids=Category.find_by(slug:category_slug)&.subtree_idswhere(category_id:category_ids)}由于该范围,Rails返回以下错误:DEPRECATIONWARNING:Dangerousquerymethod(methodwhoseargumentsareusedasrawSQL)calledwithnon-attributeargume

  5. ruby - 表示 "at least one non-digit"的正则表达式 - 2

    我想根据这个模式验证用户名:允许的字符:字母、数字、连字符、下划线第一个字符必须是字母或数字用户名不能全是数字这个正则表达式满足上面的1和2,但是我想不通如何满足3:/^[a-zA-Z\d][\w\-]+$/(我正在使用Ruby,如果相关的话) 最佳答案 不是很高效,但是很简单:/^(?!\d+$)[a-zA-Z\d][\w\-]+$/前瞻只是意味着:“后面不是一串数字,一直持续到最后”。 关于ruby-表示"atleastonenon-digit"的正则表达式,我们在StackOver

  6. ruby-on-rails - 重定向到某个页面而不是 :notice when non-confirmed user logs in - 2

    如何将登录到特定页面的未确认用户重定向到某个页面而不是显示:notice(“您必须确认您的帐户”)。使用Devisegem(最新)这个问题:(Devise-Redirectedtopageifaccountisn'tconfirmed)提供了这个解决方案:#config/initializers/my_strategy.rbWarden::Strategies.add(:my_strategy)dodefvalid?trueenddefauthenticate!u=User.find_for_authentication(:email=>params[:email])ifu.nil?|

  7. Ruby 并发 : non-blocking I/O vs threads - 2

    我正在研究Ruby(1.9.3-p0)中的并发性,并创建了一个非常简单的I/O密集型代理任务。首先,我尝试了非阻塞方法:require'rack'require'rack/fiber_pool'require'em-http'require'em-synchrony'require'em-synchrony/em-http'proxy=lambda{|*|result=EM::Synchrony.syncEventMachine::HttpRequest.new('http://google.com').get[200,{},[result.response]]}useRack::Fi

  8. ruby 正则表达式 : replace non-word chars that are not space chars - 2

    如何替换所有也不是空格字符(\s)的非单词字符(\W)?这是所需的功能:"the(quick)!brown\nfox".gsub(regex,"#")=>“#quick##brown\nfox” 最佳答案 "the(quick)!brown\nfox".gsub(/[^\w\s]/,"#")通过使正则表达式替换任何不是单词字符或空格字符的内容。 关于ruby正则表达式:replacenon-wordcharsthatarenotspacechars,我们在StackOverflow上找到

  9. ruby-on-rails - rails : How to downcase non-English string? - 2

    如何在RubyonRails3中将非英语字符串小写?str="Привет"#Russianputsstr[0].ord#=>1055str.downcase!putsstr[0].ord#=>1055(Shouldbe1087)我希望它能在Ruby1.8.7和Ruby1.9.2中工作。 最佳答案 str="Привет"str.mb_chars.downcase.to_s#=>"привет" 关于ruby-on-rails-rails:Howtodowncasenon-English

  10. javascript - d3.js : non linear graph axis - 2

    我正在尝试在轴上添加自定义刻度,如下所示想法是一个刻度总是比前一个刻度大2倍。我的理解是这是自定义比例。我做了一些研究,但找不到类似的东西。所以我想我的问题实际上是两个问题:这个尺度是数学世界的“标准”吗?是否可以使用d3.js来实现?也欢迎任何指向相关教程或现场示例(即jsFiddle)的链接。编辑:我现在问了arelatedquestiononmathematica.stackexchange.comtohelpmefindthesolutiontothisproblem&将在我尝试一些操作后更新这篇文章。 最佳答案 在这种情况

随机推荐