python - 根据每个句子的第一个单词将 Pandas 数据框列中的字符串列表分解为新列

标签 python regex pandas

所以我有大约 40,000 行人和他们的投诉。我试图将它们分类到各自的列中进行分析,并供其他分析师使用 在我公司,使用其他工具的人可以使用这些数据。

DataFrame 示例:

df = pd.DataFrame({"person": [1, 2, 3], 
                   "problems": ["body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE); mind: stressed, tired", 
                                "soul: missing; mind: can't think; body: feels great(lifts weights), overweight(always bulking), missing a finger", 
║   ║ person ║                                                     problems                                                     ║
║ 0 ║      1 ║ body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE); mind: stressed, tired                                         ║
║ 1 ║      2 ║ soul: missing; mind: can't think; body: feels great(lifts weights), overweight(always bulking), missing a finger ║
║ 2 ║      3 ║ none                                                                                                             ║


║   ║ person ║                                                     problems                                                     ║                                      body                                      ║         mind          ║     soul      ║
║ 0 ║      1 ║ body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE); mind: stressed, tired                                         ║ body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE)                              ║ mind: stressed, tired ║ NaN           ║
║ 1 ║      2 ║ soul: missing; mind: can't think; body: feels great(lifts weights), overweight(always bulking), missing a finger ║ body: feels great(lifts weights), overweight(always bulking), missing a finger ║ mind: can't think     ║ soul: missing ║
║ 2 ║      3 ║ none                                                                                                             ║ NaN                                                                            ║ NaN                   ║ NaN           ║



df.problems.str.extractall(r"(\b(?!(?: \b))[\w\s.()',:/-]+)")

|   |       |                                       0                                        |
|   | match |                                                                                |
| 0 | 0     | body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE)                              |
|   | 1     | mind: stressed, tired                                                          |
| 1 | 0     | soul: missing                                                                  |
|   | 1     | mind: can't think                                                              |
|   | 2     | body: feels great(lifts weights), overweight(always bulking), missing a finger |
| 2 | 0     | none                                                                           |

我是正则表达式的初学者,所以我希望这可以做得更好。我原来的正则表达式模式是 r'([^;]+)',但我试图排除分号后的空格。


df.problems.str.extractall(r"(\b(?!(?:\b))[\w\s.()',:/-]+)").unstack( ),它在我这里的示例中“有效”(不会出错)。

但是对于我的真实数据,我得到一个错误:"ValueError: Index contains duplicate entries, cannot reshape"

即使它适用于我的真实数据,我仍然必须弄清楚如何将这些“类别”( body 、思想、灵魂)放入指定的列中。


我正在寻找一条线索,也许我可以通过 groupby 或 multiIndex 诀窍以某种方式做到这一点。对编程有点陌生,所以我仍然在黑暗中摸索。我将不胜感激任何人必须提供的任何提示或想法。谢谢!

编辑:我只想回来并提及我在使用@WeNYoBen 的解决方案时在真实数据中遇到的错误“ValueError:索引包含重复条目,无法 reshape ”:

(df.problems.str.extractall(r"(\b(?!(?: \b))[\w\s.()',:/-]+)")[0]


df = pd.DataFrame({"person": [1, 2, 3], 
                   "problems": ["body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE); mind: stressed, energy: tired", 
                                "soul: missing; mind: can't think; body: feels great(lifts weights), overweight(always bulking), missing a finger", 

║   ║ person ║                                                     problems                                                     ║
║ 0 ║      1 ║ body: knee hurts(bad-pain), toes hurt(BIG/MIDDLE); mind: stressed, energy: tired                                 ║
║ 1 ║      2 ║ soul: missing; mind: can't think; body: feels great(lifts weights), overweight(always bulking), missing a finger ║
║ 2 ║      3 ║ none                                                                                                             ║

查看反射(reflect)我发现的边缘情况的第一行更新 ;头脑:压力大,精力:疲倦


splits = [r'(^)(.+?)[:]', r'(;)(.+?)[:]']

在那之后,我只需要重新调整 set_index 部分就可以让@WeNYoBen 的有用解决方案起作用,所以我会坚持使用这个。



df['split'] = df.problems.str.split(';')
df['mind'] = df.split.apply(
    lambda x: ''.join([category for category in x if 'mind' in category]))
df['body'] = df.split.apply(
    lambda x: ''.join([category for category in x if 'body' in category]))
df['soul'] = df.split.apply(
    lambda x: ''.join([category for category in x if 'soul' in category]))
df.drop('split', inplace=True)


df[cat] = df.split.apply(lambda x: ''.join([category for category in x if cat in category])) 

在一个函数中,并在您的数据帧上为每只 cat 运行它(例如 cats=['mind', 'body', 'soul', 'whathaveyou', 'etc.' ]


正如@ifly6 所指出的,用户输入的字符串中可能存在关键字交集。为了安全起见,应该将函数更改为

df[cat] = df.split.apply(lambda x: ''.join([category for category in x if category.startswith(cat)])) 

关于python - 根据每个句子的第一个单词将 Pandas 数据框列中的字符串列表分解为新列,我们在Stack Overflow上找到一个类似的问题:


python - 如何比较两个列表并获取匹配项的所有索引

python - 在 Python 中从 URL 中抓取特定信息

Javascript Regex 将 $.param 返回的 url 字符串强制转换为 MVC 模型绑定(bind)约定

python - 有效地将 DataFrame 列转换为对象

python - 对象类型列,百分比以 % 和小数显示,全部转换为小数

python - fillna(0) 仅适用于特定列,而不命名每个列

python - python为什么显示 'list index out of range'错误?

python - 如何在 Django JSONField 中过滤 JSON 数组

java - 最后一个有效括号之间的文本的正则表达式

javascript - 如何在可编辑 div 中替换给定的 "starting index"和 "string to replace"字符串