我在我的应用程序中过滤推文,并希望返回文本中包含特定单词的所有推文。因此,如果我正在过滤 BBC 并且我想要 BBC 的所有实例,例如。 BBC、bbc、BBC1、#BBC、@bbc,我怎么能写正则表达式。
到目前为止我在做:
re.compile(r'#|@[0-9]'+term, re.IGNORECASE)
Term 是一个包含单词的列表,我只想返回列表中带有额外的 @ 或 # 或 0-9 前缀或附加该单词或单词本身的那些单词。
谢谢
最佳答案
使用 '\b'
分隔符查找整个单词:
re.compile(r'\b(?:#|@|)[0-9]*%s[0-9]*\b' % re.escape(term), re.IGNORECASE)
关于python - 将 Python 正则表达式用于 Twitter 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13425584/