python - 从一个文件读取数据丢失，处理并写入另一个文件？ Python

我编写了一个脚本，将一个包含 40k 多行无序数据的大型 4MB 文本文件转换为特定格式且更易于处理的 CSV 文件。

问题:

分析我的文件大小，我似乎丢失了超过 1MB 的数据(20K 行 | 编辑: 原始文件为 7MB，因此丢失了 ~4MB 的数据)，当我尝试搜索特定的CommaOnly.txt 在 sorted_CSV.csv 中存在的数据点我找不到它们。

我发现这真的很奇怪。

我尝试过的:

我搜索并替换了 CommaOnly.txt 中可能导致问题的所有 unicode 字符。真不走运!

示例:\u0b99 替换为“”

这是一些数据丢失的例子

一行来自:CommaOnly.txt

name,SJ Photography,category,Professional Services,
state,none,city,none,country,none,about,
Capturing intimate & milestone moment from pregnancy and family portraits to weddings

Sorted_CSV.csv

Not present.

这可能是什么原因造成的？

代码:

import re
import csv
import time

# Final Sorted Order for all data:
#['name',   'data',
# 'category','data',
# 'about',  'data',
# 'country', 'data',
# 'state',   'data',
# 'city',   'data']


    ## Recieves String Item, Splits on "," Delimitter Returns the split List
def split_values(string):
    string = string.strip('\n')
    split_string = re.split(',', string)
    return split_string


    ## Iterates through the list, reorganizes terms in the desired order at the desired indices
    ## Adds the field if it does not initially 
def reformo_sort(list_to_sort):
    processed_values=[""]*12
    for i in range(11):
        try:
            ## Terrible code I know, but trying to be explicit for the question
            if(i==0):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="name"):
                        processed_values[0]=(list_to_sort[j])
                        processed_values[1]=(list_to_sort[j+1])
                            ## append its neighbour

                ## if after iterating, name does not appear, add it.
                if(processed_values[0] != "name"):
                    processed_values[0]="name"
                    processed_values[1]="None"

            elif(i==2):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="category"):
                    processed_values[2]=(list_to_sort[j])
                    processed_values[3]=(list_to_sort[j+1])

                if(processed_values[2] != "category"):
                    processed_values[2]="category"
                    processed_values[3]="None"

            elif(i==4):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="about"):
                        processed_values[4]=(list_to_sort[j])
                        processed_values[5]=(list_to_sort[j+1])

                if(processed_values[4] != "about"):
                    processed_values[4]="about"
                    processed_values[5]="None"

            elif(i==6):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="country"):
                        processed_values[6]=(list_to_sort[j])
                        processed_values[7]=(list_to_sort[j+1])
                if(processed_values[6]!= "country"):
                    processed_values[6]="country"
                    processed_values[7]="None"

            elif(i==8):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="state"):
                        processed_values[8]=(list_to_sort[j])
                        processed_values[9]=(list_to_sort[j+1])

                if(processed_values[8] != "state"):
                    processed_values[8]="state"
                    processed_values[9]="None"

            elif(i==10):
                for j in range(len(list_to_sort)):
                    if(list_to_sort[j]=="city"):
                        processed_values[10]=(list_to_sort[j])
                        processed_values[11]=(list_to_sort[j+1])

                if(processed_values[10] != "city"):
                    processed_values[10]="city"
                    processed_values[11]="None"
        except:
            print("failed to append!")
    return processed_values

    # Converts desired data fields to a string delimitting values by ','
def to_CSV(values_to_convert):
    CSV_ENTRY=str(values_to_convert[1])+','+str(values_to_convert[3])+','+str(values_to_convert[5])+','+str(values_to_convert[7])+','+str(values_to_convert[9])+','+str(values_to_convert[11])
    return CSV_ENTRY


with open("CommaOnly.txt", 'r') as c:
    print("Starting.. :)")

    for line in c:
        entry = c.readline()
        to_sort = split_values(entry)
        now_sorted = reformo_sort(to_sort)
        CSV_ROW=to_CSV(now_sorted)
        with open("sorted_CSV.csv", "a+") as file:
            file.write(str(CSV_ROW)+"\n")

print("Finished! :)")
time.sleep(60)

最佳答案

我已经使用 csv 包重写了我觉得可疑的主循环。

您的 reformo_sort 例程不完整且语法不正确，有空的 elif block 和缺少处理，所以我得到了不完整的行，但这应该比您的代码工作得更好。请注意 csv 的用法、“二进制”标志、在写入模式下单独打开而不是打开/关闭每一行(快得多)以及 now_sorted 数组的 1-out-of-2 过滤。

with open("CommaOnly.txt", 'rb') as c:
    print("Starting.. :)")
    cr = csv.reader(c,delimiter=",",quotechar='"')
    with open("sorted_CSV.csv", "wb") as fw:
        cw = csv.writer(fw,delimiter=",",quotechar='"')

        for to_sort in cr:
            now_sorted = reformo_sort(to_sort)
            cw.writerow(now_sorted[1::2])

关于python - 从一个文件读取数据丢失，处理并写入另一个文件？ Python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37864425/

python - 从一个文件读取数据丢失，处理并写入另一个文件？ Python

上一篇：python - 改变django中的表单字段

下一篇：python - Pandas 数据框列表部分字符串匹配python