uima

xml - 使用 UIMA 从 XML 文件中提取文本

我正在使用UIMA为XML构建一个文本提取器。由于我是UIMA框架的初学者，我想知道如何着手去做。我知道UIMA可以注释文件的特定部分，但我如何有效地提取信息？感谢您的帮助。谢谢，贾丁最佳答案以UIMARuta开发者的有限视角,我用HtmlAnnotator用于这些用例的UIMARuta。这当然不是最有效的方法。分析引擎不会为元素使用单独的类型，因为它只知道最常见的html标签，但如果需要，我会在UIMARuta中执行到预定义类型系统的转换。在后端，htmlparser已应用。关于

用于运行 UIMA Ruta 脚本的 Java API

我是UIMARuta的新手。我使用脚本语言制作了一些注释器。我能够在EclipseIDE中运行它们。我想编写一个JAVAAPI以在提供的输入上自动运行脚本。我使用的是UIMA文档中提供的相同示例项目。到目前为止我已经能够做到这一点try{FiletaeDescriptor=null;FileinputDir=null;//ReadandvalidatecommandlineargumentsbooleanvalidArgs=false;if(args.length==2){taeDescriptor=newFile(args[0]);inputDir=newFile(args[1]);

UIMA Ruta java apache

java - 在 java 程序中使用 Apache UIMA 的示例

我一直在寻找在Java程序中使用ApacheUIMA的示例。是否有关于如何在Java程序中使用示例注释器的示例？最佳答案如果您想直接在Java代码中使用UIMA，您可能想看看uimafit，因为它简化了在Java中使用UIMA的过程。这是使用示例注释器(source)的快速示例publicclassRoomNumberAnnotatorPipeline{publicstaticvoidmain(String[]args)throwsUIMAException{Stringtext="ThemeetingwasmovedfromY

java Apache section uimafit RoomNumber uima

java - 在 UIMA 中访问注解

在UIMA中有没有一种方法可以像在CAS调试器GUI中那样访问token中的注释？您当然可以从索引存储库访问所有注释，但我想循环标记，并获取每个标记的所有关联注释。原因很简单，我想检查一些注释并丢弃其他注释，这样就容易多了。任何帮助表示赞赏:) 最佳答案我是uimaFIT开发人员。如果你想找到另一个注释边界内的所有注释，你可能更喜欢更短更快的变体JCasUtil.selectCovered(referenceAnnotation,);请注意，创建具有所需偏移量的“虚拟”注释然后在其边界内搜索不是一个好主意，因为这会立即在CAS中分

注解 java section 界内中分 uima

java - 使用 cTAKES 解析临床文档

我正在尝试弄清楚如何运行临床文档管道来自java。我有一组临床文件作为纯文本。我想解析这些文档并提取文档doc_ID中的列表，其中有频率为freq的CUI。我花了几天时间安装cTAKES并寻找解决方案。我将其缩小到ClinicalPipelineWithUmls.java，在其中进行测试并使用AnaylisisEngineDescription运行SimplePipeline。这是代码的一部分:StringdocumentText="Textofdocumenttotestgoeshere,suchasthefollowing.Noedema,somesoreness,deniespa

临床 cTAKES section InputStreamCollectionReader XWriter java uima

java - Spark 上下文中的 Uima Ruta 内存不足问题

我在apachespark上运行一个UIMA应用程序。UIMARUTA有数以百万计的页面批量处理以进行计算。但有时我遇到内存不足异常。它有时会抛出异常，因为它成功处理了2000页，但有时在500页上失败。应用日志Causedby:java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.uima.internal.util.IntArrayUtils.expand_size(IntArrayUtils.java:57)atorg.apache.uima.internal.util.IntArrayUtils.ensure_size(Int

文中 Spark ComposedRuleElement apache java apache-spark uima uimanageddocument ruta

hadoop - UIMA DUCC 与 Hadoop 上的 UIMA

我正在尝试设计一个基于UIMA的分布式可扩展管道。我应该如何决定在Hadoop上使用UIMADUCC还是UIMA？如果我在UIMADUCC而不是Hadoop上构建它，反之亦然，我会错过什么？最佳答案一个维度是应用程序特性。Hadoop对于I/O密集型应用程序将具有很大的优势。对于需要在不同线程中运行多个管道副本以实现高CPU利用率的大内存应用程序，DUCC应该具有很大的优势。另一个方面是利用UIMA与利用Hadoop。DUCC建立在基本UIMA功能之上，提供许多横向扩展选项、内置性能指标和调试支持，所有这些都基于核心UIMA组件

UIMA hadoop section

hadoop - 使用 Behemoth 在 Hadoop 上运行 UIMA 作业

我有一个功能齐全的UIMA作业，可以做简单的注释。我可以通过本地CASGUI成功启动它。我一直在尝试使用ApacheBehemoth在Hadoop上运行UIMA作业。我想知道是否有人为此工作过？作业运行成功，但在hadoop输出目录中；UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到作业成功完成并将其输入数据复制到最终输出目录。谁能指出这里可能发生的事情，我们是否需要对UIMA代码进行任何其他更改？谢谢最佳答案以下是适用于我放在一起的小型管道的步骤:将您的UIMA管道导出为jar(Your-pipeline.jar

Behemoth hadoop section uima