基于 Python 的文档元数据解析器?

标签 python parsing

有没有人知道一个很好的 python 类 unix 系统的文档元数据解析器。在 Java 中,apache tika很棒。

没有com ...请:)

谢谢

最佳答案

您不必使用 Jython 来使用 Tika。您可以使用 JCC 从 Python 调用 Java .您可以找到关于此 here 的正确说明.

安装 JCC 时,您必须使用为安装工具提供的两个补丁之一,以便它可以构建共享对象。 c7 版本适用于 Ubuntu 10.04。

另一种选择是使用 python 子进程模块来调用和捕获 Tika 的标准输出。

关于基于 Python 的文档元数据解析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2239459/

相关文章:

python - 如何从一串数字和逗号中挑选出数百万?

python - 带列表的循环数学

java - 在 xml 文件中使用 CDATA 来解析 html 数据

python - 如何用python检测字符串是否包含html代码?

jquery - JSON - 重命名和复制 key - 可能吗?

python - odoo TreeView 中无法识别的字段

python - 获取错误 : module 'gym' has no attribute 'make'

python - 从特定的分隔符拆分

java - 是否可以使用 Smooks 将 NCPDP d.0 映射到 XML?

java - 如何在Java中解析文件中的整数?