java - native Java 文档解析器和转换器库/基于 linux 的文档转换器

标签 java linux parsing document converter

我正在寻找可以执行以下操作的 Java 库:

为 DOC、DOCX、JPEG、PNG、GIF、TXT、XLS、XLSX、PPT、PDF 类型的附件解析 *.eml 或 *.msg 格式的电子邮件,并将附件转换为 TIFF 格式。

它可以是开源的,也可以是商业库。或者我正在寻找用于 linux 的命令行工具。我们已经尝试过open office,但是有些文档格式问题太多。

更新:

我目前通过研究发现:

对于解析电子邮件和提取附件,JavaMail (http://www.oracle.com/technetwork/java/javamail/index.html) 是一个不错的选择。

对于转换文档,JodConverter (http://code.google.com/p/jodconverter/) 是一个舒适的库。然而,它只是 open office 的包装器,所以如果 open office 有问题(我确实经常遇到 openoffice 的问题)来转换文档,您也可以使用 JodConcerter。

总而言之,我(到目前为止)没有运气找到任何用原生 java 实现的文档转换库,它处理所有常见的文档格式,既不是开源的也不是商业的。这似乎是一个真正的市场缺口。

最佳答案

RainbowPDF可能适合:它是一个带有 Java API 的基于商业服务器的转换工具。

如果您有 Windows 服务器,请查看 NEEVIA Document Converter Pro .它具有一些邮件功能。

Apace POI 是一个读取Microsoft Office 文档内容的界面。您必须自己编写图像生成和布局组件的代码。尽管如此,它还是读取 Outlook MSG 格式。

关于java - native Java 文档解析器和转换器库/基于 linux 的文档转换器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7305406/

相关文章:

java - 为什么位图大小在不同的屏幕上会发生变化?

java - 在java中连接字符串和正则表达式

linux - 如何列出文件夹中的所有文件夹并排除特定文件夹

linux - awk 从 mtjoseph :6/MKTCzMS/YU. 中提取 "Matthew":10974:10060:Matthew

python - psutil - 暂停进程

android - 我应该启动一个线程来解析一些 xml 吗?

c - 解析 c 命令 : char*, char** 混淆

java - 代码中的字符串常量/文字是否会大大减慢编译速度?

java - JAVA代码中的android getInputType

Python 在同一日期对 dict 值进行分组