最佳答案
您不必使用 Jython 来使用 Tika。您可以使用 JCC 从 Python 调用 Java .您可以找到关于此 here 的正确说明.
安装 JCC 时,您必须使用为安装工具提供的两个补丁之一,以便它可以构建共享对象。 c7 版本适用于 Ubuntu 10.04。
另一种选择是使用 python 子进程模块来调用和捕获 Tika 的标准输出。
关于基于 Python 的文档元数据解析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2239459/