<分区>
我想从 epub 文件中提取文本以用于我的文本转语音 iOS 应用程序。
如果我可以使用一些库在 iOS 设备中做到这一点,那就太好了,但我也想知道它是否应该在服务器端处理。
有人知道如何做到这一点吗?
例如,Voice Dream 从 epub 格式中提取文本。 http://www.voicedream.com/?page_id=134
最佳答案
ePub 是一个 ZIP 文件,其中包含 XML list ,其中包含摘要(和一些元数据)并引用一组 HTML(请查看规范以了解所有详细信息: http://idpf.org/epub ) 如果您想在设备上执行此操作,您很可能必须编写自己的代码:打开 zip,在 list 中找到您的文本位置,然后删除所有 HTML 标记以获取纯文本。 如果您可以在服务器端执行此操作,则会更容易:您可以使用处理 ePub(和许多其他格式)的 Apache Tika ( http://tika.apache.org/ )。
很难更准确,因为您没有解释如何获取 epub 以及如何选择 epub 的哪一部分将被定位...
关于ios - 如何从 iOS 的 epub 格式中提取 txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16185396/