r - fread(R 中的 data.table)以及编码规范

标签 r csv character-encoding data.table

在之前的问题和我的问题的答案中找不到正确的答案: 1. 我有一个 2.3 GB 的 csv 文件,其中包含 240 万行希伯来语文本,当前以 ASCII 编码。 由于我们讨论的是大文件,因此 fread 会更好,但是编码呢? 知道如何读取以 ASCII 编码的 csv 文件以避免著名的“字符串中嵌入 nul”错误吗?

谢谢

最佳答案

截至 8 月 25 日,case linked by David Arenburg已关闭,该功能包含在当前可用的 data.table 版本中。现在可以在调用 fread 时使用编码参数:

text <- fread(file, encoding = 'UTF-8')

ASCII 不是显式编码选项,但 ASCII 是有效的 UTF-8,因此当您想要读取希伯来语文本时可以指定 UTF-8。

关于r - fread(R 中的 data.table)以及编码规范,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29939478/

相关文章:

r - 我可以在单个 Shiny 仪表板模块中包含多个 UI 元素吗?

Excel for Mac 2016 - 另存为 CSV - 行尾错误

PHP 将 utf8 Æ (195 134) 转换为 198

java - 在 ISO-8559-1 和 cp1251 之间转换

arrays - 6 个位置内 3 个元素的排列

r - 如何从字符串中删除所有中文字符?

python - Pandas:将数组列转换为 numpy 矩阵

php - 在 PHP 中显示从 MYSQL 中提取的数据的重音

r - 将熔化的 table 变回 table

c# - 验证csv文件的内容#