python - 根据特定字符串过滤网站

标签 python string pandas

我目前正在对网址进行分析,并希望找到与特定单词匹配的网址。这些 URL 位于 pandas DataFrame 列中,我想过滤 URL 标题中的特定单词。

到目前为止我做了什么:

data['new'] = data['SOURCEURL'].str.extract("(" + "|".join(filter3) +")", expand=False)

有关此问题的问题是,我应用的过滤器是缩写(“ecb”),它通常也用在链接末尾。

http://www.ntnews.com.au/news/national/senate-president-stephen-parry-believes-he-is-a-british-citizen/news-story/b2d3a3442544937f85508135401a3f84?nk=f19e52d2acd9588ecb494c03f21fed8c-1509598074

在最后一个“/”部分。我怎样才能过滤出现在文本环境中的“ecb”事件?像 www.xyz.com/news/national/ecb-press-realease/b2dse332313 之类的东西,它不会在哈希值或类似上面的东西中提取 ecb 的出现。这可以通过简单的方式实现吗?

非常感谢!

最佳答案

也许您可以将 URL 拆分为单词并过滤掉英语词典中没有的所有单词?例如使用 PyEnchant :

import enchant
d = enchant.Dict("en_US")
filtered_words = [x for x in words if d.check(x)]

关于python - 根据特定字符串过滤网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48444067/

相关文章:

python - .env 文件或配置类

python - 删除python中分隔符之间的子字符串

python - 如何使用一个顶级列对多索引 pandas 数据框进行排序?

python - 如何将 39.54484700000000 更改为 39.54 并使用 python

python - 错误 : _tkinter. TclError:无法调用 "wm"命令:应用程序已被销毁

java - str.replace 不替换 char

c - C语言中如何给字符串赋值

python - 想要从 pandas/python 中的数据帧创建像数据帧一样的稀疏矩阵

python - 如何找到分位数的索引

python - 如何使用 Robust PCA 输出作为传统 PCA 的主成分(特征)向量