python - 如何在 pandas str.contains 中使用\b 字边界?

标签 python regex string pandas word-boundary

使用 str.contains 时是否有等效项?

由于“Sa.”,以下代码错误地将“Said Business School”列在类别中如果我可以创建一个 wordboundary,它就会解决问题。把一个空间搞砸了。我正在使用 pandas,它们是 dfs。我知道我可以使用正则表达式,但只是好奇我是否可以使用字符串来使其更快

gprivate_n = ('Co|Inc|Llc|Group|Ltd|Corp|Plc|Sa |Insurance|Ag|As|Media|&|Corporation')
df.loc[df[df.Name.str.contains('{0}'.format(gprivate_n))].index, "Private"] = 1 

最佳答案

这只是正则表达式中的旧 Python 问题,其中 '\b' 应该作为 raw-string 传递r'\b...'。或者更不理想的是,双重转义 ('\\b')。

所以你的正则表达式应该是:

gprivate_n = (r'\b(Co|Inc|Llc|Group|Ltd|Corp|Plc|Sa |Insurance|Ag|As|Media|&|Corporation)')

关于python - 如何在 pandas str.contains 中使用\b 字边界?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22359962/

相关文章:

python - 狮身人面像 : local conf for a page?

用于解析 : set Properly Name Is X = value # comment 的 JavaScript 正则表达式

regex - 删除R中两种字符串模式之间的字母

java - 源代码中的字符串和从文件中读取的字符串有什么区别?

javascript - javascript中的search()方法无法在包含 "\\ch"的字符串中搜索它

python - 我能在python中找到哪些参数是 "pre-assigned"吗?

python - Mac - Python - 导入错误 : "No module named site"

python - 不同版本的 Python 中的文本格式

regex - Text.Regex.Posix 的=~ 运算符在某些模式下无法获取返回值

java - 如何在Java中从原始utf格式中获取真实字符