python - 遍历数据框并根据字典条件进行更新

标签 python pandas xlsx

我有以下需要处理的 xlsx 文件:

我想遍历数据框,如果列 ITEM CODE 包含字典键,我想检查同一行是否包含字典值[0](元组中的第一个位置),如果包含我想插入字典值 1 (元组中的第二个位置)到另一个名为 SKU 的列

数据框:#df3 = df2.append(df1) enter image description here

catp = {"2755":(('24','002'),('25','003'),('26','003'),('27','004'),('28','005'),('29','006'),('30','007'),('31','008'),
                ('32','009'),('32','010'),('33','011'),('34','012'),('35','013'),('36','014')),
        "2513":(('38','002'),('40','003'),('42','004'),('44','005'),('46','006'),('48','007'),('50','008'),('52','009'),
               ('54','010'))}

for i, row in df3.iterrows():
    if catp.key() in df3['ITEM CODE'][i] and catp.value()[0] in df3['TG'][i]:
            codmarime = catp.value()[1]
            df3['SKU'][i] = '20'+df3['ITEM CODE'][i]+[i]+codmarime

    else:
        df3['SKU'][i] = '20'+df3['ITEM CODE'][i]+'???'

如果找到 2755 和 24 SKU = '202755638002'

如果找到 2513 和 44 SKU = '202513123005'

输出xlsx enter image description here

最佳答案

由于您未能提供文本数据来至少创建 DataFrame 的一个片段, 我从你的图片中复制了 3 行,创建了我的测试 DataFrame:

df3 = pd.DataFrame(data=[
    [ '1513452', 'AVRO D2', '685', 'BLACK/BLACK/ANTRACITE', '24', 929.95, '8052644627565' ],
    [ '2513452', 'AVRO D2', '685', 'BLACK/BLACK/ANTRACITE', '21', 929.95, '8052644627565' ],
    [ '2755126', 'AMELIA',  'Y17', 'DARK-DENIM',            '24', 179.95, '8052644627565' ]],
    columns=[ 'ITEM CODE', 'ITEM', 'COLOR', 'COLOR CODE', 'TG', 'PRICE', 'EAN' ])

详细信息:

  • 第一行不包含 ITEM CODE 列中的任何 catp 键。
  • 第二行:ITEM CODE 包含您的代码之一 (2513) 但用于 TG 2513 键下没有保存的列包含第一个元素 == 21
  • 第三行:ITEM CODE 包含您的代码之一 (2755),TG == 242755 下保存的元组中,有一个 == 24

然后我们必须定义几个辅助函数:

def findContainedCodeAndVal(dct, str):
    for eachKey in dct.keys():
        if str.find(eachKey) >= 0:
            return (eachKey, dct[eachKey])
    else:
        return (None, None)

此函数尝试在 dct 中查找包含在 str 中的键。 它返回一个二元组,其中包含从 dct 中找到的键和关联值。

def find2ndElem(tuples, str):
    for tpl in tuples:
        if tpl[0] == str:
            return tpl[1]
    else:
        return ''

此函数检查 tuples 中的每个元组是否是其第一个元素 == str 并返回此元组的第二个元素。

最后定义的函数是应用于每一行的函数 来自你的数据框。它返回要保存在 SKU 列中的值:

def fn(row):
    ind = row.name  # Read row index
    iCode = row['ITEM CODE']
    k, val = findContainedCodeAndVal(catp, iCode)
    codmarime = ''
    if k:
        tg = row.TG
        codmarime = find2ndElem(val, tg)
    if codmarime == '':
        codmarime = '???'
    return f'20/{iCode}/{ind}/{codmarime}'

请注意,它使用您的 catp 字典。

为了演示,我在返回值中引入了额外的 斜线,分隔相邻的部分。在目标版本中删除它们。

最后要做的是计算 DataFrame 的 SKU 列, 将 fn 函数应用于 df3 的每一行并将结果保存在 SKU 列:

df3['SKU'] = df3.apply(fn, axis=1)

当您打印 DataFrame(包含我的测试数据)时,SKU 列将 包含:

20/1513452/0/???
20/2513452/1/???
20/2755126/2/002

关于python - 遍历数据框并根据字典条件进行更新,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55677074/

相关文章:

r - 将xlsx文件读入R的快速方法

javascript - 在 NodeJS 中将大 XLSX(超过 600MB)解析/转换为 CSV

php - 在 php 中使用 simplexlsx 读取 excel xlsx 文件

python - 解码 json 时出现 ValueError

python - `multiprocessing` 与 `concurrent.futures` 中的最大 worker 数

python - 如何对一个键列进行分组,在第二列上使用条件并分别为工作日和周末添加第三列?

python-3.x - 重新索引系列会在 Pandas 中返回 NaN

python - is_authenticated() 引发 TypeError TypeError : 'bool' object is not callable

python - Tensorflow 爆炸梯度

python - 在Python中使用相同的整数对不同列中的相同值进行编码