我有看起来像这样的文本文件
<Jun/11 09:14 pm>Information i need to capture1
<Jun/11 09:14 pm> Information i need to capture2
<Jun/11 09:14 pm> Information i need to capture3
<Jun/11 09:14 pm> Information i need to capture4
<Jun/11 09:15 pm> Information i need to capture5
<Jun/11 09:15 pm> Information i need to capture6
和两个日期时间,例如
15/6/2015-16:27:10 # startDateTime
15/6/2015-17:27:19 # endDateTime
我需要获取两个日期时间之间日志中的所有信息。目前,我从我搜索的两次时间中创建一个日期时间对象。
然后,我逐行读取文件并创建一个新的日期时间对象,将其与开始时间和结束时间进行比较,看看是否应该获取该行信息。然而,文件很大(150MB),并且代码可能需要几个小时才能运行(在 100 多个文件上)。
代码看起来像这样
f = open(fileToParse, "r")
for line in f.read().splitlines():
if line.strip() == "":
continue
lineDateTime = datetime.datetime(lineYear, lineMonth, lineDay, lineHour, lineMin, lineSec)
if (startDateTime < lineDateTime < endDateTime):
writeFile.write(line+"\n")
between = True
elif(lineDateTime > endDateTime):
writeFile.write(line+"\n")
break
else:
if between:
writeFile.write(line+"\n")
我想用更多的智慧来重写这个。这些文件可以保存数月的信息,但我通常只搜索大约 1 小时到 3 天的数据。
最佳答案
无论如何,您都将所有文件读入内存,只需迭代文件对象并在日期超出上限时中断:
with open(fileToParse, "r") as f:
for line in f:
if not line.strip():
continue
lineDateTime = datetime.datetime(lineYear, lineMonth, lineDay, lineHour, lineMin, lineSec)
if startDateTime < lineDateTime < endDateTime:
writeFile.write(line + "\n")
elif lineDateTime > endDateTime:
break
显然你需要获取lineYear、lineMonth
等..
使用 f.read().splitlines()
不仅将所有行读取到内存中,因此如果您中的 5 行高于上限,您仍然可以在内存中保留所有行,您还可以拆分行,以便您也创建所有行的完整列表。
您还可以检查月份/年份是否正确,并且只有在月份/年份正确的情况下才创建日期时间对象,这样会快得多。
如果您的行如上开头:
Jun/11
您想要 Jun/11,然后只需 if line.startswith("Jun/11")
然后才开始创建日期时间对象。
with open(fileToParse, "r") as f:
for line in f:
if line.startswith("Jun/11"):
for line in f:
try:
lineDateTime = datetime.datetime...
except ValueError:
continue
if startDateTime < lineDateTime < endDateTime:
writeFile.write(line + "\n")
elif lineDateTime > endDateTime:
break
关于python - 有效解析文本文件的日期时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30874773/