utf-8 - 如何使用 pdftotext 将文本文件保存为 UTF-8 格式

标签 utf-8 pdftotext

我正在使用 pdftotext 开源工具将 PDF 转换为文本文件。如何将文本文件保存为 UTF-8 格式,以便保留文本文件中的所有重音字符。我正在使用以下命令进行转换,将内容提取到文本文件,但看不到任何重音字符。

pdftotext -enc UTF-8 book1.pdf book1.txt

请帮我解决这个问题。

提前致谢,

最佳答案

您可以使用以下命令获取可用编码的列表:

pdftotext -listenc

并使用 -enc 参数选择正确的一个。我这里似乎默认使用UTF-8。即你的“UTF-8”是多余的

pdftotext -enc UTF-8 your.pdf

您可能需要检查您的区域设置(LC_ALL、LANG...)。

编辑: 我下载了以下 PDF: http://www.i18nguy.com/unicode/unicodeexample.pdf

并使用以下命令在 Windows 7 PC(德语)和 XPDF 3.02PL5 上对其进行转换:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

文本文件肯定是 UTF-8 编码的,因为所有字符都正确显示。您使用文本文件做什么?如果您通过网络应用程序显示它,则您的内容编码可能只是错误的,而文本文件已按照您想要的方式转换。

使用浏览器(强制 Firefox 中的编码为 ISO-8859-1 和 UTF-8)或使用十六进制编辑器进行仔细检查。

关于utf-8 - 如何使用 pdftotext 将文本文件保存为 UTF-8 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4039930/

相关文章:

java - 使用 utf-8 代码页的 Windows 命令行问题

javascript - 使用 pdf.js 在 pdf 到文本转换中将换行符显示为 `\n`

java - 使用 Java 从多个 PDF 中提取文本

javascript - JavaScript中的Unicode和URI编码、解码和转义

ios - iOS Web 服务接收空数据

php - PHP中UTF-8编码的问题

php - 如何使用 php 在数据库中插入 ISO-8859-1 字符集值

machine-learning - 如何训练和读取图像/PDF中的特定文本?

python - 如何处理 <FE><FF> 应该是有效的 utf-8?我究竟做错了什么?

perl - 如何使用 CAM::PDF 提取所有页面?