pdf - 无法从 pdf 复制确切的印地语内容

标签 pdf hindi

我无法从 pdf 文件中复制印地语内容。
当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。

例子-

原创- निर्वाचक

粘贴后-ननरररचक

它是这样显示的。

任何人都可以帮助我获得确切的印地文字符。

最佳答案

此问题与 this answer 中讨论的问题类似。 ,以及sample document there的外观确实也提醒了document here :

简而言之

您的文件本身提供的信息,例如标题行中的字形“निर्वाचक”代表文本“ननरररचक”。您应该向文档来源询问字体信息不会误导的文档版本。如果这是不可能的,你应该去 OCR。

详细

第一页的顶行由页面内容流中的以下操作生成:

/9 239 Tf
( !"#$%&) Tj 

第一行选择名为 的字体9 大小为 239(页面开头的操作会缩小所有内容)。第二行导致打印字形。这些字形使用该字体的自定义编码在括号之间引用。

字体 9 在您的 PDF 的第一页包含 ToUnicode map 。这张 map 特别映射
<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930> 

即代码 0x20 (' ') 和 0x21 ('!') 都映射到 Unicode 代码点 0x0928 ('न') 和代码 0x22 ('"')、0x23 ('#') 和 0x24 ('$ ') 全部到 Unicode 代码点 0x0930 ('र')。

因此,( !"#$%&) 的内容, 显示为“निर्वाचक”,完全正确(根据文档中的信息)被提取/复制并粘贴为“ननरररचक”。

关于pdf - 无法从 pdf 复制确切的印地语内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30756193/

相关文章:

qt - Qt4中QTextDocument单页表格和图片

c# - PDF 不会自动换行并尊重行位置

Java欧元符号转换为货币符号

Android - 印地语连词支持?

java - MySql utf8不保存印地语和其他语言

python - 如何使用 Poppler 以真实比例显示 PDF?

Django - pdf 响应编码错误 - xhtml2pdf

php - 我们可以在 URL 中使用英语以外的语言吗?

sublimetext2 - 印地语和 Sublime Text

c# - 使用 Itextsharp 读取本地化的 PDF 文件