我注意到一个问题,即 R 中的 pdftools 包在我的 Windows 7 机器上本地运行时与我通过 ssh 在共享 Ubuntu 服务器上运行时似乎表现不同。
我的代码:
download.file("http://www.nber.org/lbid/docs/LinkCO95Guide.pdf",
"1995codebook.pdf",
mode = "wb",
method = "libcurl")
codebook <- pdf_text("1995codebook.pdf")
在我的本地 Windows 7 机器上,对象码本显示为“大字符(258 个元素,710.2 Kb)”,而在 Ubuntu 服务器上,它显示为“大字符(258 个元素,701.9 Kb)”。
正如您可能想象的那样,这给我下游造成了问题,在我的本地机器上运行的代码在 Ubuntu 服务器上产生的结果不同。查看密码本中包含的文本,我立即注意到的第一个区别是,在 Windows 上生成的版本有“\r\n”,而在 Ubuntu 上生成的版本只有“\n”(我依赖于“\r\n “下游)。
为什么这个角色系列会有所不同?它可能与编码有关吗?任何有关导致此问题的原因以及如何在两台机器上获得相同结果的帮助表示赞赏。
最后要提到的一件事:我必须将 poppler 库安装到 Ubuntu 服务器上的主目录(没有 sudo 访问权限)才能安装 pdftools:
apt-get source poppler
cd poppler-0.24.5
./configure --prefix=$HOME/myapps
make
make install
export PKG_CONFIG_PATH=$HOME/myapps/lib/pkgconfig
完成后, install.packages("pdftools") 似乎运行正确。并且 pdftools 加载没有问题。因此,如果这是一个糟糕的安装,我不确定出了什么问题。
最佳答案
一些东西:
dos2unix
您可以通过apt-get install dos2unix
获得configure
script for pdftools says ,只需通过 apt-get install libpoppler-cpp-dev
安装库然而:大多数理智的程序,包括 R,对待
\r\n
和 n
相同,因此您导入的数据应该相同。如果你的没有,使用
dos2unix
或根据需要进行转换的等效工具。从长远来看,您希望您的代码不在乎。
关于r - R中的pdftools在不同机器上的表现不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46922193/