python - 如何迭代 pandas 数据帧的集合?

标签 python pandas dataframe sas

我有大量 SAS 数据集想要导出到 pandas 数据框。 saspy 模块有一个 sd2fd用于此目的的方法。我遇到的问题由此 SO post 描述其中有链接解释了为什么在执行代码时不能替换字符串并将其用作变量名。

我正在定义 mk_df 函数来调用 sd2fd 方法,然后使用字典传递键/值对。

import os
import glob
from pathlib import Path
import saspy
import pandas as pd

p = Path('/home/trb/sasdata/export_2_df')
sas_datasets = []
df_names     = []
pya_tables   = []
sep = '.'

for i in p.rglob('*.sas7bdat'):
    sas_datasets.append(i.name.split(sep,1)[0])
    df_names.append('df_' + i.name.split(sep,1)[0])

sd_2_df_dict = dict(zip(sas_datasets,df_names))

sas = saspy.SASsession(results='HTML')

返回:

Using SAS Config named: default
SAS Connection established. Subprocess id is 27752

代码继续...

# tell sas where to find the dataset
sas_code='''
   libname out_df "~/sasdata/export_2_df/";
'''
libref = sas.submit(sas_code)

# define the mk_df function
def mk_df(sas_name, df_name):
    df_name = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    return df_name

# call the mk_df function
for key, value in sd_2_df_dict.items():
    print(key, value)
    mk_df(key, value)

返回:

cars df_cars
failure df_failure
airline df_airline
prdsale df_prdsale
retail df_retail
stocks df_stocks

但是,没有创建任何数据帧。

print(df_cars)

NameError                                 Traceback (most recent call last)
<ipython-input-18-aa21e263bad6> in <module>()
----> 1 print(df_cars)

NameError: name 'df_cars' is not defined

我验证了 mk_df 函数是否有效:

mk_df('stocks', 'df_stocks')

    Stock   Date    Open    High    Low     Close   Volume  AdjClose
0   IBM     2005-12-01  89.15   89.92   81.56   82.20   5976252.0   81.37
1   IBM     2005-11-01  81.85   89.94   80.64   88.90   5556471.0   88.01
2   IBM     2005-10-03  80.22   84.60   78.70   81.88   7019666.0   80.86
3   IBM     2005-09-01  80.16   82.11   76.93   80.22   5772280.0   79.22
4   IBM     2005-08-01  83.00   84.20   79.87   80.62   4801386.0   79.62

打印keyvalue返回字符串:

print(key, value)
   stocks df_stocks

如何迭代调用 mk_df 函数?或者我应该考虑采取不同的方法?

@Python R SAS,这是一个有用的观察。因此,我更改了 mk_df 函数以包含更多信息,并尝试显式命名输出 DataFrame。

def mk_df(sas_name, out_df):
    out_df = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    out_df.df_name = out_df
    name =[x for x in globals() if globals()[x] is out_df]
    print("Dataframe Name is: ",  name, "Type: ", type(out_df))
    return out_df

现在调用该函数:

j = 0

for key, value in sd_2_df_dict.items():
     mk_df(key, value).name=df_names[j]
     j += 1

返回:

/opt/anaconda3/lib/python3.7/site-packages/ipykernel_launcher.py:3: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
  This is separate from the ipykernel package so we can avoid doing imports until

Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>
Dataframe Name is:  [] Type:  <class 'pandas.core.frame.DataFrame'>

最佳答案

我没有运行此代码,因此我的响应可能不正确。我看到的是您的 mk_df 函数返回从 SAS 数据集创建的数据框。但是,当您调用该函数时,您并没有将其分配给任何东西。因此 df_name 在 mk_df 函数之外不可用。

根据您的编辑进行更改

关于这段代码 - name =[x for x in globals() if globals()[x] is out_df]:您没有任何名为 df_cars、df_failure 的变量等在任何地方创建。因此,globals() 字典中没有任何内容会让您满意,因此 x 始终为空 - 这在您的输出中有所体现。

我认为您想要做的是通过迭代中变量“value”中包含的名称创建一个数据框。因此,如果值为 df_cars,则您正在尝试创建一个名为 df_cars 的数据框。

问题是,当您在方法内执行类似 df_name = 的操作时,它会重新绑定(bind)原始引用,因此引用会丢失。有关详细信息,请参阅这个精彩的讨论。 How do I pass a variable by reference?

此外,我认为您混淆了 df_name 和 out_df,或者我没有完全理解您想要做的事情。

实现此目的的一种方法是使用 exec 语句,但出于各种原因,通常不建议使用该语句:


def mk_df(sas_name):
    this_df = sas.sd2df(table = sas_name, libref = 'out_df', method='CSV')
    this_df.name = "df_" + sas_name
    return this_df

for key, value in sd_2_df_dict.items():
     exec(value + "= mk_df(" + key + ")")

但我认为你最好通过字典维护不同的数据帧。即

dfs = dict()
for key, value in sd_2_df_dict.items():
     dfs[key] = mk_df(key)

关于python - 如何迭代 pandas 数据帧的集合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57129757/

相关文章:

python - 自定义函数: converting string inputs to float after the input

python - 如何获取我自己帐户的访问 token 以在我的服务器中存储/使用?

python - Python 对科学记数法取模的错误

python - 尝试使用 for 循环填充数据框中的新列

python - 如何在Python中将纬度/经度值转换为十进制?

python - Pandas 如何将数组放在单个数据框单元格中?

python - 使用 Crypto++ 加密并使用 Python.CRYPTO 解密

python - key 错误 : 'Requested level (date) does not match index name (None)'

python - Pandas 从 csv 中读取错误地解析大整数

scala - 在 spark-shell 中拆分多行