python - 根据特定字符串过滤网站

我目前正在对网址进行分析，并希望找到与特定单词匹配的网址。这些 URL 位于 pandas DataFrame 列中，我想过滤 URL 标题中的特定单词。

到目前为止我做了什么:

data['new'] = data['SOURCEURL'].str.extract("(" + "|".join(filter3) +")", expand=False)

有关此问题的问题是，我应用的过滤器是缩写(“ecb”)，它通常也用在链接末尾。

http://www.ntnews.com.au/news/national/senate-president-stephen-parry-believes-he-is-a-british-citizen/news-story/b2d3a3442544937f85508135401a3f84?nk=f19e52d2acd9588ecb494c03f21fed8c-1509598074

在最后一个“/”部分。我怎样才能过滤出现在文本环境中的“ecb”事件？像 www.xyz.com/news/national/ecb-press-realease/b2dse332313 之类的东西，它不会在哈希值或类似上面的东西中提取 ecb 的出现。这可以通过简单的方式实现吗？

非常感谢!

最佳答案

也许您可以将 URL 拆分为单词并过滤掉英语词典中没有的所有单词？例如使用 PyEnchant :

import enchant
d = enchant.Dict("en_US")
filtered_words = [x for x in words if d.check(x)]

关于python - 根据特定字符串过滤网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48444067/

上一篇：python - 优化从大型字典中检索值

下一篇：python - SpaCy 中的自定义句子边界检测

相关文章：

python - .env 文件或配置类

python - 删除python中分隔符之间的子字符串

python - 如何使用一个顶级列对多索引 pandas 数据框进行排序？

python - 如何将 39.54484700000000 更改为 39.54 并使用 python

python - 错误 : _tkinter. TclError:无法调用 "wm"命令:应用程序已被销毁

java - str.replace 不替换 char

c - C语言中如何给字符串赋值

python - 想要从 pandas/python 中的数据帧创建像数据帧一样的稀疏矩阵

python - 如何找到分位数的索引

python - 如何使用 Robust PCA 输出作为传统 PCA 的主成分(特征)向量