python-3.x - 如何在 pandas.read_csv() 之前预处理数据

标签 python-3.x pandas

我有一个稍微损坏的 CSV 文件,我想在使用 pandas.read_csv() 读取它之前对其进行预处理,即对其进行一些搜索/替换。

我尝试打开文件并在生成器中进行预处理,然后将其交给 read_csv():

    def in_stream():
    with open("some.csv") as csvfile:
        for line in csvfile:
            l = re.sub(r'","',r',',line)
            yield l

    df = pd.read_csv(in_stream())

可悲的是,这只是抛出一个

ValueError: Invalid file path or buffer object type: <class 'generator'>

虽然,在查看 Panda 的源代码时,我希望它能够在迭代器上工作,从而在生成器上工作。

我只找到了这篇 [文章] (Using a custom object in pandas.read_csv()),概述了如何将生成器包装到类似文件的对象中,但它似乎只适用于字节模式的文件。

所以最后我正在寻找一种模式来构建一个打开文件的管道,逐行读取它,允许预处理,然后将其馈送到例如pandas.read_csv()。

最佳答案

在对 Pandas 的源代码进行进一步调查后,很明显,它不仅需要一个可迭代对象,而且还希望它是一个文件,通过具有读取方法(inference.py 中的 is_file_like() )来表达。

所以,我用旧的方式构建了一个生成器

class InFile(object):
def __init__(self, infile):
    self.infile = open(infile)

def __next__(self):
    return self.next()

def __iter__(self):
    return self

def read(self, *args, **kwargs):
    return self.__next__()

def next(self):
    try:
        line: str = self.infile.readline()
        line = re.sub(r'","',r',',line) # do some fixing
        return line
    except:
        self.infile.close()
        raise StopIteration

这适用于 pandas.read_csv():

df = pd.read_csv(InFile("some.csv"))

在我看来,这看起来 super 复杂,我想知道是否有更好(→ 更优雅)的解决方案。

关于python-3.x - 如何在 pandas.read_csv() 之前预处理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52153414/

相关文章:

python - 编写一个函数,反向返回一个data.txt

Python pandas如何按行扫描包含的字符串?

python - 使 Daily pandas DataFrame 接收与 Weekly (resampled) DataFrame 相同的值

python - 使用 matplotlib 绘制缩放和旋转的二元分布

python - Pandas :过滤多列

Python 控制台提示在 PyCharm 中显示 In[] Out[] 而不是 >>>

python - 使用小部件更新 Gmaps + Jupyter 中的标记

bash - 如何通过管道将一个 python 脚本的输出作为另一个 python 脚本的输入?

python - LeetCode 762 为什么单独的代码在 Jupyter Notebook 中有效,而在 Leetcode 中无效

python-3.x - 在将多头 pandas 数据帧输出到 excel 时摆脱索引