pdf - 获取 PDF 文件的正确字数

标签 pdf xpdf

this topic中的回复帮助我理解为什么有时我的 PDF 找不到单词以及为什么我在使用时不断得到不同的字数不同的 PDF 字数统计程序。我决定使用xpdf。我把它转换成文本并添加 -layout 标签，然后使用 Word 2003 打开生成的文本文件。我记下了字数。然后不幸的是，我决定删除 -layout 标签。不过，这一次的字数有所不同。

为什么该标签会影响字数？有没有准确的方法可以查出字数 PDF 文件？ 如果有必要的话，我什至愿意花钱购买这样的软件，只要它能提供给我正确的字数。

(我检查了another topic，但我想知道我刚刚提供的解决方案是否可以解决所有问题。还有另一个主题推荐使用advancedpdf。)

最佳答案

我想说的是，没有可靠的字数统计方法。例如，为了让你的生活更困难，可以将这个可爱的 Stackoverflow 答案的每个字符放入单个文本对象中，并定位这些对象，以便仅在渲染时为人类提供有意义的段落。像这样:

<html><body><style>
div {float: left;}
</style><div><p>S</p></div><div><p>t</p></div><div><p>a</p></div>
<div><p>c</p></div><div><p>k</p></div>

关于pdf - 获取 PDF 文件的正确字数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9517864/

上一篇：facebook-graph-api - 如何正确获取我的 current_location

下一篇：python - 艰难地学习 Python，练习 41 令人头疼

相关文章：

php - 如何将数据从 Controller 传递到 dompdf？

javascript - Window.open 二进制数据 pdf 正在下载但不显示 pdf :Javascript

iphone - 如何在 iOS 应用程序中显示和编辑现有的 PDF 文件

image - PDF:提取的图像被切片/平铺

php - 使用AJAX和PHP输出PDF

c# - 将 pdf 转换为文本

html - 使用nodejs将html转换为pdf

pdf - 文本pdf : text and color in rectangle

pdf - 如何通过xpdf或mupdf获取指定的文本pos？

lua - Awesome 中缺少 Xpdf pid