jjzjj

java - HTML 到格式化文本

coder 2023-12-23 原文

是否有任何 java API 可以像 Android 中的 Html.fromHtml() 那样执行类似的操作? JSoup 确实解析并删除了标签,但输出不是格式化的。 例如:

<ol type="1">
 <li>Test1</li>
 <ol type="a">
  <li>TestA1</li>
  <li>TestB1</li>
 </ol>
 <li>Test2</li>
 <ol type="a">
  <li>TestA2</li>
  <li>TestB2</li>
 </ol>
</ol>

应该给我类似的东西

  1. 测试 1

    一个。测试A1

    测试B1

  2. 测试2

    一个。测试A2

    测试B2

最佳答案

没有 jsoup-to-"formated text" 的 api,但您可以自己转换列表:

  1. 迭代 ul/ol 元素的所有childs,它是列表的根
  2. if item:格式化并添加输出字符串
  3. if sublist:执行 1. - 但使用 sublist 元素 - 并添加结果

示例:

在这个例子中,我使用 type 属性来确定需要哪种项目符号,并使用字符 (!) 来索引项目。如果没有合适的属性,则使用 char 1

实现:

/**
 * Convert the Listelement <code>root</code> to a formated string-representation.
 * 
 * @param root      Rootelement of the list (normally 'ul' or 'ol' tag)
 * @param depth     Depth of the list (<code>=0</code> for root element)
 * @return          List as String
 */
public String createList(Element root, int depth)
{
    final String indentation = createIndentation(depth); // create indentation
    StringBuilder sb = new StringBuilder();

    final String typeAttr = root.attr("type"); // Get the character used as bullet (= 'type' attribute)
    char type = typeAttr.isEmpty() ? '1' : typeAttr.charAt(0); // if 'type' attribute: use it, else: use '1' instead

    for( Element sub : root.children() ) // Iterate over all Childs
    {
        // If Java < 7: use if/else if/else here
        switch( sub.tagName() ) // Check if the element is an item or a sublist
        {
            case "li": // Listitem, format and append
                sb.append(indentation).append(type++).append(". ").append(sub.ownText()).append("\n");
                break;
            case "ol": // Sublist
            case "ul":
                if( !sub.children().isEmpty() ) // If sublist is not empty (contains furhter items)
                {
                    sb.append(createList(sub, depth + 1)); // Recursive call for the sublist
                }
                break;
            default: // "Illegal" tag, do furhter processing if required - output as an example here
                System.err.println("Not implemented tag: " + sub.tagName());
        }
    }

    return sb.toString(); // Return the formated List
}


/**
 * Create an Indentationstring of <code>length</code> blanks.
 * 
 * @param length    Size of indentation
 * @return          Indentationstring
 */
private String createIndentation(int length)
{
    StringBuilder sb = new StringBuilder(length);

    for( int i=0; i<length; i++ )
    {
        sb.append(' ');
    }

    return sb.toString();
}

测试代码:

    Document doc = ... // Load / parse your document here

    Element listRoot = doc.select("ol").first(); // Select the root-element (!) of the list here. 
    final String output = createList(listRoot, 0); // Convert the list

    System.out.println(output); // Ouput

结果:

输入(HTML):

<ol type="1">
    <li>Test1</li>
    <ol type="a">
        <li>TestA1</li>
        <li>TestB1</li>
    </ol>
    <li>Test2</li>
    <ol type="a">
        <li>TestA2</li>
        <li>TestB2</li>
    </ol>
</ol>

输出:

1. Test1
 a. TestA1
 b. TestB1
2. Test2
 a. TestA2
 b. TestB2

就是这样! :-)

关于java - HTML 到格式化文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9369903/

有关java - HTML 到格式化文本的更多相关文章

  1. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  2. ruby-on-rails - Rails HTML 请求渲染 JSON - 2

    在我的Controller中,我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时,它会自然地以HTML呈现。但是,当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法),我仍然将HTML作为响应。如何获取JSON作为响应?我还需要说明什么? 最佳答案 您应该将.json附加到请求的url,提供的格式在routes.rb的路径中定义。这

  3. ruby-on-rails - 使用 Sublime Text 3 突出显示 HTML 背景语法中的 ERB? - 2

    所以我在关注Railscast,我注意到在html.erb文件中,ruby代码有一个微弱的背景高亮效果,以区别于其他代码HTML文档。我知道Ryan使用TextMate。我正在使用SublimeText3。我怎样才能达到同样的效果?谢谢! 最佳答案 为SublimeText安装ERB包。假设您安装了SublimeText包管理器*,只需点击cmd+shift+P即可获得命令菜单,然后键入installpackage并选择PackageControl:InstallPackage获取包管理器菜单。在该菜单中,键入ERB并在看到包时选择

  4. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  5. ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2

    这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build

  6. ruby-on-rails - Ruby url 到 html 链接转换 - 2

    我正在使用Rails构建一个简单的聊天应用程序。当用户输入url时,我希望将其输出为html链接(即“url”)。我想知道在Ruby中是否有任何库或众所周知的方法可以做到这一点。如果没有,我有一些不错的正则表达式示例代码可以使用... 最佳答案 查看auto_linkRails提供的辅助方法。这会将所有URL和电子邮件地址变成可点击的链接(htmlanchor标记)。这是文档中的代码示例。auto_link("Gotohttp://www.rubyonrails.organdsayhellotodavid@loudthinking.

  7. ruby - 我可以将我的 README.textile 以正确的格式放入我的 RDoc 中吗? - 2

    我喜欢使用Textile或Markdown为我的项目编写自述文件,但是当我生成RDoc时,自述文件被解释为RDoc并且看起来非常糟糕。有没有办法让RDoc通过RedCloth或BlueCloth而不是它自己的格式化程序运行文件?它可以配置为自动检测文件后缀的格式吗?(例如README.textile通过RedCloth运行,但README.mdown通过BlueCloth运行) 最佳答案 使用YARD直接代替RDoc将允许您包含Textile或Markdown文件,只要它们的文件后缀是合理的。我经常使用类似于以下Rake任务的东西:

  8. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  9. ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式? - 2

    给定一个复杂的对象层次结构,幸运的是它不包含循环引用,我如何实现支持各种格式的序列化?我不是来讨论实际实现的。相反,我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby,我想解析XML和JSON数据以构建复杂的对象层次结构。此外,应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗?在任何提到的情况下,我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好,这样我以后就可以轻松支持多种XML格式。 最佳答案 我最

  10. java - 我的模型类或其他类中应该有逻辑吗 - 2

    我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我

随机推荐