python - 解析网页以建立索引

标签 python html-parsing

我正在尝试理解/优化为网站建立索引的逻辑。我对 HTML/JS 方面很陌生，所以我正在不断学习。在为网站建立索引时，我根据每个页面上的链接递归地深入该网站。问题之一是页面具有重复的 URL 和文本(例如页眉和页脚)。对于 URL，我有一个已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗？我希望我的解释足够清楚。我目前有代码(Python)来获取该网站的有用 URL 列表。现在我正在尝试对这些页面的内容建立索引。是否有首选逻辑来识别或跳过这些页面上的重复文本(例如页眉、页脚、其他简介)。我正在使用 BeautifulSoup + requests 模块。

最佳答案

我不太确定这是否是您所希望的，但可读性是一项流行的服务，它只是解析页面中的“有用”内容。这是集成到 ios 版 safari 中的服务。

它智能地获取页面有值(value)的内容，同时忽略页脚/页眉/广告等内容

有针对 python/ruby/php 以及可能其他语言的开源端口。

https://github.com/buriy/python-readability

关于python - 解析网页以建立索引，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15552680/