在 R 中读取和扫描 MS Word .doc 文件

标签 r ms-word

我有一大组 .doc 文件,这些文件提供了一组相应数据集中可用的变量。我想在 R 中浏览这些数据集,看看哪些数据集包含感兴趣的变量。我之前使用 readLines 对纯文本文件执行过此操作,但这不适用于 .doc 文件。

我已经下载了 tm 包,它应该能够使用 readDOC 命令读取 .doc 文件,但说明非常有限,我无法让它工作。有谁知道如何使用 readDOC 命令或对如何在 R 中执行此操作有其他建议? 谢谢!

非常感谢大家的回复和建议。我认为 R 可能被设置为很容易读取 .doc 文件,但根据你所说的,我认为最简单的事情是先将所有 word 文件转换为另一种格式。我刚刚下载了一些名为“Convert Doc”的免费软件,我将所有的 word 文档存储在一个文件夹中,然后很快将它们全部转换为 .txt 文件。现在我可以自动搜索,因为我有大约 100 个数据文件以及指定变量编码的随附 word 文档,每个数据文件中的变量编码并不总是相同(例如,对于是/否,一些使用 0/1,其他使用 1/2)所以这让我可以找到正确的变量并使用 readLines、grep 和更多的文本处理来存储它的编码。谢谢!

最佳答案

您的策略取决于您要对文档执行的操作以及文档结构的重要性。

如果结构很重要,那么您可以将 Word 文档转换为 HTML,然后使用 XML 包提取相关部分。如果结构不重要,那么将它们转换为纯文本并使用 readLines 导入它们(如您之前所做的那样)可能是更好的选择。

第一个转换步骤将是棘手的部分。您可以通过右键单击并选择“另存为”手动执行此操作,这是处理少量文件的最简单方法。

在 R 中,您可能必须通过 RDCOMClient 执行一些涉及 COM 连接的操作 package .这通常很繁琐。

尽管我不喜欢建议使用 VBScript 做任何事情,但对于这项任务来说,它可能比 R 好得多,所以请考虑使用该语言进行重新保存。

关于在 R 中读取和扫描 MS Word .doc 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19491987/

相关文章:

r -/usr/bin/env : RScript: No such file or directory | After recent R-3. 0.1.安装。

macos - 相当于从 Mac OS X finder 打印 .docx 文件的命令行

ms-access - 用于 Word/Access VBA 的 xlErrorHandler 类比

html - 使用适当的分页符将 html/css 打印媒体显示转换为 .doc?

r - 尝试设置 Knit 'document' 输出 Hook 会导致代码块换行符丢失

r - R 中的函数式编程

matplotlib - 为 ipython 图启用右键单击复制?

vba - 限制/锁定书签在Word中编辑

r - 按列开始和结束转换数据帧 R

r - 使用 ggplot2 在一个图上绘制多个箱线图