java - 使用 TIKA 从 URL 中提取文本

标签 java apache-tika

是否可以使用 Tika 从 URL 中提取文本?任何链接将不胜感激。还是 TIKA 只能用于 pdf、word 和任何其他媒体文档?

最佳答案

检查 documentation - 是的你可以。

例子

java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika

将显示此页面上的文本。

关于java - 使用 TIKA 从 URL 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6656849/

相关文章:

java - 不知道为什么我收到 NullPointerException 错误

java - 进程不在类型变量 T 的范围内

java - Python Azure 函数中的 Tika

java - 如何以编程方式比较两个基于视觉差异的 PDF?

python - 将 .doc/.docx 转换为保留表格的文本

java - 使用 Java 从 PDF/A 中提取文本

java - 如何在 JGit 中执行 git log --no-walk --tags

java - 我是否需要在构造函数中用另一个数组初始化 ArrayList 字段?

Java JList 模型 addElement() 破坏了列表的视觉表示

java - Gradle、Tika - 排除一些使 "fat jar"太胖的依赖包