python3 的 csv.DictReader 没有按预期按分隔符拆分记录

标签 python python-3.x csv

我正在尝试使用 csv.DictReader 读取 TSV 文件,但是读取器报告的字段数有误。当我查看内部时,我发现它没有正确拆分定界符(我用 str.split(delimiter)awk -F 'delim' 确认。


from pprint import pprint
import csv
import sys, os
keys = ['id', 'src', 'src_len', 'sys1_o', 'sys1_b', 'sys1_l',
        'sys2_o', 'sys2_b', 'sys2_l', 'sys3_o', 'sys3_b', 'sys3_l', 'x']
# get this data from https://gist.github.com/thammegowda/95613b203a442fbe72fc5b51af491367 
my_data = """segment-22 Kture . 27  Thutaalchisu.   -   33  Koture. -   27  Th jump.    -   33  3
segment-23  ‘Yunker .   7   "said.  -   8   ‘Yunker.    -   7   "said.  -   8   1"""

tmp_file = "tmp.tsv"
with open(tmp_file, 'w', encoding='utf-8') as f:
    f.write(my_data)

def read_recs_csv(path):
    with open(path, 'rt', encoding='utf-8') as f:
        rdr = csv.DictReader(f, fieldnames=keys, delimiter='\t')
        for rec in rdr:
            yield(dict(rec))

def read_recs_raw(path):
    with open(path, 'rt', encoding='utf-8') as f:
        for line in f:
            rec = dict(zip(keys, line.strip().split('\t')))
            yield(rec)

print("Reading through CSV DictReader ")
pprint(list(read_recs_csv(tmp_file)))
print("Reading directly")
pprint(list(read_recs_raw(tmp_file)))
# Debug
print(sys.version_info)
print(os.environ['LANG'])

输出:

    Reading through CSV DictReader 
[{'id': 'segment-22',
  'src': 'Kture .',
  'src_len': '27',
  'sys1_b': '-',
  'sys1_l': '33',
  'sys1_o': 'Thutaalchisu.',
  'sys2_b': '-',
  'sys2_l': '27',
  'sys2_o': 'Koture.',
  'sys3_b': '-',
  'sys3_l': '33',
  'sys3_o': 'Th jump.',
  'x': '3'},
 {'id': 'segment-23',
  'src': '‘Yunker .',
  'src_len': '7',
  'sys1_b': '-',
  'sys1_l': '8',
  'sys1_o': 'said.\t-\t8\t‘Yunker.\t-\t7\tsaid.',
  'sys2_b': None,
  'sys2_l': None,
  'sys2_o': '1',
  'sys3_b': None,
  'sys3_l': None,
  'sys3_o': None,
  'x': None}]
Reading directly
[{'id': 'segment-22',
  'src': 'Kture .',
  'src_len': '27',
  'sys1_b': '-',
  'sys1_l': '33',
  'sys1_o': 'Thutaalchisu.',
  'sys2_b': '-',
  'sys2_l': '27',
  'sys2_o': 'Koture.',
  'sys3_b': '-',
  'sys3_l': '33',
  'sys3_o': 'Th jump.',
  'x': '3'},
 {'id': 'segment-23',
  'src': '‘Yunker .',
  'src_len': '7',
  'sys1_b': '-',
  'sys1_l': '8',
  'sys1_o': '"said.',
  'sys2_b': '-',
  'sys2_l': '7',
  'sys2_o': '‘Yunker.',
  'sys3_b': '-',
  'sys3_l': '8',
  'sys3_o': '"said.',
  'x': '1'}]
sys.version_info(major=3, minor=6, micro=1, releaselevel='final', serial=0)
en_US.UTF-8

注意:示例数据发布在 a gist 中.如果制表符被空格替换,请下载它。

最佳答案

raw 和 csv 解析之间的区别(这就是我坚持获取输入数据的原因)是 csv 模块默认处理引号

您的数据中有引号,csv 将受引号保护的字段视为单个字段。 awkstr.split 无关。

只是告诉 csv 模块不要考虑引用:

rdr = csv.DictReader(f, fieldnames=keys, delimiter='\t', quoting=csv.QUOTE_NONE)

这样做,我就填满了所有字段。

关于python3 的 csv.DictReader 没有按预期按分隔符拆分记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45858542/

相关文章:

python - 在给定的 docker-compose 容器内执行 Python 脚本

python - 在多核上运行 Python

javascript - 尝试使用 CustomJS 加载新图像时 Bokeh 查找临时文件

Python:基于另一列值的 CSV 文件中的平均值

python - flask / python 。从上传的文件中获取 mimetype

python - 不使用 DEFLATE 的野外 ZIP 文件?

python - Pandas 数据透视表 : a very surprising result with aggfunc len(x. unique()) 和边距=True

python-3.x - 迭代 2 个 Python 列表并获取所有 x 到 y 的组合

vba - 想要 Excel 中的 VBA 读取非常大的 CSV 并创建 CSV 小子集的输出文件

iphone - CHCSV 错误 : unable to allocate memory for length