algorithm - 我可以使用什么算法来识别网页上的内容

我在浏览器中加载了一个网页(即我可以访问它的 DOM 和元素定位)，我想找到可能包含最多内容的 block 元素(或这些元素的排序列表) (如在连续的文本 block 中)。目标是排除菜单、页眉、页脚等内容。

最佳答案

这是我个人最喜欢的:VIPS: a Vision-based Page Segmentation Algorithm

关于algorithm - 我可以使用什么算法来识别网页上的内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1999228/

相关文章：

python - 就地快速排序实现