在之前的问题和我的问题的答案中找不到正确的答案: 1. 我有一个 2.3 GB 的 csv 文件,其中包含 240 万行希伯来语文本,当前以 ASCII 编码。 由于我们讨论的是大文件,因此 fread 会更好,但是编码呢? 知道如何读取以 ASCII 编码的 csv 文件以避免著名的“字符串中嵌入 nul”错误吗?
谢谢
最佳答案
截至 8 月 25 日,case linked by David Arenburg已关闭,该功能包含在当前可用的 data.table 版本中。现在可以在调用 fread 时使用编码参数:
text <- fread(file, encoding = 'UTF-8')
ASCII 不是显式编码选项,但 ASCII 是有效的 UTF-8,因此当您想要读取希伯来语文本时可以指定 UTF-8。
关于r - fread(R 中的 data.table)以及编码规范,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29939478/