tika

xml - 使用 Tika 从 xml 中提取完整内容

我想用tika提取一个xml文件的完整内容。这意味着tika不应将文本从元素中取出并丢弃标签。内容的输出应该是这样的:content:texttext但结果总是这样:content:texttext程序代码:publicstaticvoidmain(String[]args){try{InputStreaminput;input=newFileInputStream(newFile("D:/SolrTestFileSystem/Test_Files/test.xml"));ContentHandlertextHandler=newWriteOutContentHandler();Met

Tika 的 C# 替代品

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。关闭8年前。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的

C#替代品 section noreferrer noopener

php - 当两者都安装在一台服务器上时如何通过 PHP 使用 Tika？

我需要制作一个内部网站，允许用户上传.doc、.pdf、.xls文件并在文本框内查看文本。我已经用PHP创建了网站，用户可以上传文件。我已经在我的服务器上安装了Tika，在命令行中可以键入java-jartika-app-1.10-SNAPSHOT.jar-mmanu.pdf>output.txt成功创建文本我需要在输出文件中。为了将上传文件的纯文本导入PHP，从PHP调用Tika的最佳方式是什么？四处搜索我发现:调用“Tika服务器”的PHP代码，例如使用curlTika的PHP包装类似乎在安装了PHP的同一台服务器上使用Tika，但我还没有让它们中的任何一个工作。或者，我可以简单地

上时两者 Tika strong code php apache-tika

java - 如何配置 Tika 的 pom.xml 以停止获取所有许可证依赖性警告？

当我尝试使用Tika时，我收到了所有这些警告:Feb24,20189:24:35PMorg.apache.tika.config.InitializableProblemHandler$3handleInitializableProblemWARNING:JBIG2ImageReadernotloaded.jbig2fileswillbeignoredSeehttps://pdfbox.apache.org/2.0/dependencies.html#jai-image-ioforoptionaldependencies.TIFFImageWriternotloaded.tifffil

依赖性 java gt lt artifactId maven pdfbox apache-tika

java - 达到 Apache Tika maxStringLength

我有数千个11-15mb的pdf文档。我的程序显示我的文档包含超过100k个字符。错误输出:Exceptioninthread"main"org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException:Yourdocumentcontainedmorethan100000characters,andsoyourrequestedlimithasbeenreached.Toreceivethefulltextofthedocument,increaseyourlimit.如何将限制增加到10-15mb？我找到了一

maxStringLength Apache BodyContentHandler section code java parsing apache-tika

java - 将语言配置文件添加到 Apache Tika

能否请任何设法做到这一点的人解释如何做到这一点:-)我需要为我需要添加的语言获取n-gram文件吗？是否需要创建tika.language.override.properties，添加一些其他lang代码并在classPath上添加lang-code.ngpn-gram文件？在那种情况下，我从哪里得到它以及为什么Tika不支持更多语言，如果只是这样的话？语言检测目前支持的语言有这几种da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th而tika使用传统的n-gram表示法er_132232_de103517en_82666et

Apache java 34 code section apache-tika language-detection

java - Apache Tika 和文档元数据

我正在使用ApacheTika对各种文档(ODS、MSoffice、pdf)进行简单处理。我必须至少得到:wordcount,author,title,timestamps,languageetc.这可没那么简单。我的策略是对6种类型的文档使用模板方法模式，首先找到文档类型，然后根据它单独处理它。我知道apachetika应该不需要这样做，但是文档格式完全不同，对吗？例如InputStreaminput=this.getClass().getClassLoader().getResourceAsStream(doc);ContentHandlertextHandler=newBodyC

和文 Apache metadata section java documents apache-tika

java - 使用 TIKA 从 URL 中提取文本

是否可以使用Tika从URL中提取文本？任何链接将不胜感激。还是TIKA只能用于pdf、word和任何其他媒体文档？最佳答案检查documentation-是的你可以。例子java-jartika-app-0.9.jar-thttp://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika将显示此页面上的文本。关于java-使用TIKA从URL中提取文本，我们在StackOverflow上找

java TIKA section stackoverflow questions apache-tika

java - Apache Tika 提取扫描的 PDF 文件

我在使用ApacheTIKA(版本1.10)时遇到了一些问题。我得到了一些PDF文件，它们只是扫描的纸片。这意味着每个页面只是一个图像。我的目标是提取PDF文件的文本。我的tesseract设置正确，提取JPG和PNG文件非常有效。我正在使用的代码看起来像这样(不要介意丢失的异常处理):publicStringextractText(InputStreamstream){AutoDetectParserparser=newAutoDetectParser();BodyContentHandlerhandler=newBodyContentHandler(Integer.MAX_VALU

Apache java parseContext parser PDFParserConfig pdf ocr tesseract apache-tika

MimeType“ Audio/wav”的GetExtension使用Apache Tika返回空字符串

我正在尝试获取有效的“音频/WAV”MIME类型的文件扩展名。使用此代码MimeTypesmimeTypes=TikaConfig.getDefaultConfig().getMimeRepository();Stringextension=mimeTypes.getDefaultMimeTypes().forName("audio/wav").getExtension();我得到的扩展名是空字符串。但是，使用“音频/X-wav“扩展作品。这是预期的行为吗？看答案tl;博士是的，这是预期的行为。x-MIME亚型通常适用于尚未标准化的格式。对应于WAV格式的MIME类型是audio/vnd.wa

空字符 GetExtension code section audio

12 3