我目前正在对网址进行分析,并希望找到与特定单词匹配的网址。这些 URL 位于 pandas DataFrame 列中,我想过滤 URL 标题中的特定单词。
到目前为止我做了什么:
data['new'] = data['SOURCEURL'].str.extract("(" + "|".join(filter3) +")", expand=False)
有关此问题的问题是,我应用的过滤器是缩写(“ecb”),它通常也用在链接末尾。
http://www.ntnews.com.au/news/national/senate-president-stephen-parry-believes-he-is-a-british-citizen/news-story/b2d3a3442544937f85508135401a3f84?nk=f19e52d2acd9588ecb494c03f21fed8c-1509598074
在最后一个“/”部分。我怎样才能过滤出现在文本环境中的“ecb”事件?像 www.xyz.com/news/national/ecb-press-realease/b2dse332313 之类的东西,它不会在哈希值或类似上面的东西中提取 ecb 的出现。这可以通过简单的方式实现吗?
非常感谢!
最佳答案
也许您可以将 URL 拆分为单词并过滤掉英语词典中没有的所有单词?例如使用 PyEnchant :
import enchant
d = enchant.Dict("en_US")
filtered_words = [x for x in words if d.check(x)]
关于python - 根据特定字符串过滤网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48444067/