pdf - 获取 PDF 文件的正确字数

标签 pdf xpdf

this topic中的回复帮助我理解为什么有时我的 PDF 找不到单词以及为什么我在使用时不断得到不同的字数 不同的 PDF 字数统计程序。我决定使用xpdf。我把它转换成文本 并添加 -layout 标签,然后使用 Word 2003 打开生成的文本文件。 我记下了字数。然后不幸的是,我决定删除 -layout 标签。 不过,这一次的字数有所不同。

为什么该标签会影响字数?有没有准确的方法可以查出字数 PDF 文件? 如果有必要的话,我什至愿意花钱购买这样的软件,只要它能提供给我 正确的字数。

(我检查了another topic,但我想知道我刚刚提供的解决方案是否可以解决所有问题。还有另一个主题推荐使用advancedpdf。)

最佳答案

我想说的是,没有可靠的字数统计方法。例如,为了让你的生活更困难,可以将这个可爱的 Stackoverflow 答案的每个字符放入单个文本对象中,并定位这些对象,以便仅在渲染时为人类提供有意义的段落。像这样:

<html><body><style>
div {float: left;}
</style><div><p>S</p></div><div><p>t</p></div><div><p>a</p></div>
<div><p>c</p></div><div><p>k</p></div>

关于pdf - 获取 PDF 文件的正确字数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9517864/

相关文章:

php - 如何将数据从 Controller 传递到 dompdf?

javascript - Window.open 二进制数据 pdf 正在下载但不显示 pdf :Javascript

iphone - 如何在 iOS 应用程序中显示和编辑现有的 PDF 文件

image - PDF:提取的图像被切片/平铺

php - 使用AJAX和PHP输出PDF

c# - 将 pdf 转换为文本

html - 使用nodejs将html转换为pdf

pdf - 文本pdf : text and color in rectangle

pdf - 如何通过xpdf或mupdf获取指定的文本pos?

lua - Awesome 中缺少 Xpdf pid