html - 从网页中提取相关图像

我有几个基于 Twitter 的新闻聚合网站。我一直计划添加我在 Twitter 上找到的文章中的图片。

如果我下载页面并使用 <img> 提取图像标签，我得到一堆图像；并非所有这些都与文章相关。例如，捕获按钮、图标、广告等的图像。如何提取文章附带的图像？我知道有一个解决方案——Facebook 链接共享器做得很好。

米春

最佳答案

从页面下载所有图片，将来自广告服务器的所有图像列入黑名单。然后找到一些启发式方法，这将为您提供正确的图像...

我觉得是这样的:

然后取点数最多的图像，把剩下的丢掉

可能适用于大多数网站。

(虽然需要一些试探法)

关于html - 从网页中提取*相关*图像，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3129857/

相关文章：

html - css中气泡+箭头(三 Angular 形)的边框