我有几个基于 Twitter 的新闻聚合网站。我一直计划添加我在 Twitter 上找到的文章中的图片。
如果我下载页面并使用 <img>
提取图像标签,我得到一堆图像;并非所有这些都与文章相关。例如,捕获按钮、图标、广告等的图像。如何提取文章附带的图像?我知道有一个解决方案——Facebook 链接共享器做得很好。
米春
最佳答案
从页面下载所有图片, 将来自广告服务器的所有图像列入黑名单。 然后找到一些启发式方法,这将为您提供正确的图像...
我觉得是这样的:
- 最大分辨率 += 5pts
- 最大文件大小 += 10 pts
- Jpeg += 2 分
然后取点数最多的图像,把剩下的丢掉
可能适用于大多数网站。
(虽然需要一些试探法)
关于html - 从网页中提取*相关*图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3129857/