algorithm - 我可以使用什么算法来识别网页上的内容

标签 algorithm webpage html-content-extraction

我在浏览器中加载了一个网页(即我可以访问它的 DOM 和元素定位),我想找到可能包含最多内容的 block 元素(或这些元素的排序列表) (如在连续的文本 block 中)。目标是排除菜单、页眉、页脚等内容。

最佳答案

关于algorithm - 我可以使用什么算法来识别网页上的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1999228/

相关文章:

python - 就地快速排序实现

apache - 我网站中所有页面的图标

algorithm - 用三个最小长度的正方形覆盖n个点

c# - 如何找出谁导致了 PostBack?

php - 在网页中嵌入 AVI/MPG

ruby-on-rails - 什么 ruby​​ gem 提供了从网页中提取内容的功能?

html - "Smart"网站数据的解析和使用方式?

从 HTML 页面中提取内容(不包括导航)的 python 方法

sql - 匹配两个数据集中列的排列

c++ - 链表中元素的成对交换(通过改变指针)