Python pandas 检查单元格中列表的最后一个元素是否包含特定字符串

标签 python loops pandas contain

my dataframe df:

index                        url
1           [{'url': 'http://bhandarkarscollegekdp.org/'}]
2             [{'url': 'http://cateringinyourhome.com/'}]
3                                                     NaN
4                  [{'url': 'http://muddyjunction.com/'}]
5                       [{'url': 'http://ecskouhou.jp/'}]
6                     [{'url': 'http://andersrice.com/'}]
7       [{'url': 'http://durager.cz/'}, {'url': 'http:andersrice.com'}]
8            [{'url': 'http://milenijum-osiguranje.rs/'}]
9       [{'url': 'http://form-kind.org/'}, {'url': 'https://osiguranje'},{'url': 'http://beseka.com.tr'}]

如果 url 列行列表中的最后一项包含“https”,我想选择行,同时跳过缺失值。

我当前的脚本

df[df['url'].str[-1].str.contains('https',na=False)]

为所有行返回 False 值,而其中一些实际上包含 https。

有人可以帮忙吗?

最佳答案

我认为你可以先将NaN替换为empty url,然后使用apply:

df = pd.DataFrame({'url':[[{'url': 'http://bhandarkarscollegekdp.org/'}],
                          np.nan,
                         [{'url': 'http://cateringinyourhome.com/'}],  
                         [{'url': 'http://durager.cz/'}, {'url': 'https:andersrice.com'}]]},
                  index=[1,2,3,4])

print (df)
                                                 url
1     [{'url': 'http://bhandarkarscollegekdp.org/'}]
2                                                NaN
3        [{'url': 'http://cateringinyourhome.com/'}]
4  [{'url': 'http://durager.cz/'}, {'url': 'https...

df.loc[df.url.isnull(), 'url'] = [[{'url':''}]]
print (df)
                                                 url
1     [{'url': 'http://bhandarkarscollegekdp.org/'}]
2                                      [{'url': ''}]
3        [{'url': 'http://cateringinyourhome.com/'}]
4  [{'url': 'http://durager.cz/'}, {'url': 'https...

print (df.url.apply(lambda x: 'https' in x[-1]['url']))
1    False
2    False
3    False
4     True
Name: url, dtype: bool

第一个解决方案:

df.loc[df.url.notnull(), 'a'] = 
df.loc[df.url.notnull(), 'url'].apply(lambda x: 'https' in x[-1]['url'])

df.a.fillna(False, inplace=True)
print (df)
                                                 url      a
1     [{'url': 'http://bhandarkarscollegekdp.org/'}]  False
2                                                NaN  False
3        [{'url': 'http://cateringinyourhome.com/'}]  False
4  [{'url': 'http://durager.cz/'}, {'url': 'https...   True

关于Python pandas 检查单元格中列表的最后一个元素是否包含特定字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39831410/

相关文章:

python - 使用两个数据框进行 Pandas 矢量化

python - Pandas pivot_table 不符合值顺序

python - 使用 Nones 查找最小元素及其在列表中的位置

python - 将新列从 Pandas 添加到 SQLite 表的工作流程

javascript - 通过 For 循环选择和添加函数到 Div

c++ - 当用户输入负数 C++ 时中断循环

python - Pandas 在最近的时间戳上合并数据帧

python - Matplotlib:子图中的插图

python - 如何在一个 URL 中有多个获取参数?

php - 如果在循环中使用 MySQLi 准备好的语句,我什么时候调用bind_param?