python - 将 Python 正则表达式用于 Twitter 数据

我在我的应用程序中过滤推文，并希望返回文本中包含特定单词的所有推文。因此，如果我正在过滤 BBC 并且我想要 BBC 的所有实例，例如。 BBC、bbc、BBC1、#BBC、@bbc，我怎么能写正则表达式。

到目前为止我在做:

re.compile(r'#|@[0-9]'+term, re.IGNORECASE)

Term 是一个包含单词的列表，我只想返回列表中带有额外的 @ 或 # 或 0-9 前缀或附加该单词或单词本身的那些单词。

谢谢

最佳答案

使用 '\b' 分隔符查找整个单词:

re.compile(r'\b(?:#|@|)[0-9]*%s[0-9]*\b' % re.escape(term), re.IGNORECASE)

关于python - 将 Python 正则表达式用于 Twitter 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13425584/

相关文章：

python - 类型错误:列表索引必须是整数，而不是列表。怎么修？