python - 如何分别处理具有多个测量时间列和多个测量变量的数据帧

标签 python pandas

我是Python新手,正在处理pandas机器学习的数据预处理问题。 我想要预处理的数据由 n 个测量变量组成,其中每个变量都有自己的“时间戳”。此外,每个测量变量的列长度不同(例如,变量 a 测量 50 次,变量 b 测量 1000 次)。 对于机器学习,我需要对数据进行插值。我希望每个测量变量的时间戳相同。如何有效地对这样的数据帧进行上采样和下采样?

首先,我成功地从相应的.dat文件中导入了数据。

然后,我将数据帧拆分为每个时间点和测量值对的数据帧,以删除所有纳米值。

现在,我陷入了如何对这些数据帧进行上采样/下采样的困境。 时间向量始终以 hh:mm:ss 的形式提供总处理时间。不幸的是,我似乎无法在这里使用 pandas 重新采样功能,因为我的数据中给出的时间点不是日期时间格式。此外,处理时间本身对于机器学习任务也非常重要。所以我不想将处理时间更改为日期时间。

也许您知道一种简单有效的方法来处理我的数据? 对于机器学习任务,需要处理一些 GB 的数据,因此我对有效的方法非常感兴趣。

'Import data'
 df = pd.read_csv('FILE', sep="\t",
                   names=['t_a','a','t_b','b','t_c','c', 
                          't_d','d','t_e','e','t_f','f',
                          't_g','g','t_h','h','t_i','i'],
                   parse_dates=['t_a','t_b','t_c',
                                't_d','t_e','t_f',
                                't_g','t_h','t_i'],
                   decimal = ',',
                   header=1)

"Split df into touple of respective measuring time-point and measured 
value"
"Then, Drop all nan-values"
dfs=np.split(df,[2],axis=1)
a=dfs[0]
a=a.dropna()

dfs=np.split(dfs[1],[2],axis=1)
b=dfs[0]
b=b.dropna()

dfs=np.split(dfs[1],[2],axis=1)
c=dfs[0]
c=c.dropna()

"And so on..."

最佳答案

现在我解决了将进程时间解析为日期时间对象的问题,如下所示:

def parse_processtime(df, df_columns):
for col in df_columns:
    if df[col].dtype == object:
        df[col] = pd.to_timedelta(df[col], errors='ignore')

df = pd.read_csv('FILE', sep="\t",
                   names=['t_a','a','t_b','b','t_c','c', 
                          't_d','d','t_e','e','t_f','f',
                          't_g','g','t_h','h','t_i','i'],
                   parse_dates=['t_a','t_b','t_c',
                                't_d','t_e','t_f',
                                't_g','t_h','t_i'],
                   infer_datetime_format=True,
                   decimal = ',',
                   header=1)

## Parse process-time
parse_processtime(df, df.columns)

关于python - 如何分别处理具有多个测量时间列和多个测量变量的数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57375111/

相关文章:

python - pandas groupby + 列表

python - 随机混合300万行文件的行

python - 具有 None 值的 Pandas 对象类型的最大长度

python - Pandas 日期时间 : find the correct year for the first date after a datetime

python - Geopandas 数据框指向多边形

python - 如何使用假设库创建日期时间索引 pandas DataFrame?

Python:每组随机选择

python - Pandas 将函数应用于列列表会引发 TypeError

python - 将 Excel 文件文件夹转换为 CSV 文件/合并 Excel 工作簿

python - 如何使 session.expunge_all() 工作以从 SQLAlchemy 中的 session 中分离所有实例?