python - 解析网页以建立索引

标签 python html-parsing

我正在尝试理解/优化为网站建立索引的逻辑。我对 HTML/JS 方面很陌生,所以我正在不断学习。在为网站建立索引时,我根据每个页面上的链接递归地深入该网站。问题之一是页面具有重复的 URL 和文本(例如页眉和页脚)。对于 URL,我有一个已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗?我希望我的解释足够清楚。我目前有代码(Python)来获取该网站的有用 URL 列表。现在我正在尝试对这些页面的内容建立索引。是否有首选逻辑来识别或跳过这些页面上的重复文本(例如页眉、页脚、其他简介)。我正在使用 BeautifulSoup + requests 模块。

最佳答案

我不太确定这是否是您所希望的,但可读性是一项流行的服务,它只是解析页面中的“有用”内容。这是集成到 ios 版 safari 中的服务。

它智能地获取页面有值(value)的内容,同时忽略页脚/页眉/广告等内容

有针对 python/ruby/php 以及可能其他语言的开源端口。

https://github.com/buriy/python-readability

关于python - 解析网页以建立索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15552680/

相关文章:

python - 如何解决无法导入名称页面(django/wagtail)

python - 改进DNA比对去间隙的代码设计

Python - 两个日期时间之间的数据子集

javascript - for循环中的html minifier解析错误

c# - 确定主要文章图片 - HTML Agility Pack

python - 查询大的海龟文件

java - 我的 Python-Java 接口(interface),好的设计?以及如何包装 JNI 函数?

php - 如何使用 php 在 html 中的特定元素之后插入新元素?

c# - 解析 html -> xml 并使用 Xpath 查询

python - 由于 "View The Full list"按钮,最多 10 个项目