html - 从网页中提取*相关*图像

标签 html parsing image-extraction

我有几个基于 Twitter 的新闻聚合网站。我一直计划添加我在 Twitter 上找到的文章中的图片。

如果我下载页面并使用 <img> 提取图像标签,我得到一堆图像;并非所有这些都与文章相关。例如,捕获按钮、图标、广告等的图像。如何提取文章附带的图像?我知道有一个解决方案——Facebook 链接共享器做得很好。

米春

副本:How to find and extract "main" image in website

最佳答案

从页面下载所有图片, 将来自广告服务器的所有图像列入黑名单。 然后找到一些启发式方法,这将为您提供正确的图像...

我觉得是这样的:

  • 最大分辨率 += 5pts
  • 最大文件大小 += 10 pts
  • Jpeg += 2 分

然后取点数最多的图像,把剩下的丢掉

可能适用于大多数网站。

(虽然需要一些试探法)

关于html - 从网页中提取*相关*图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3129857/

相关文章:

html - css中气泡+箭头(三 Angular 形)的边框

jquery - 物化波浪效果在 Safari 中无法正常工作

pdf - 如何提取 PDF 提取图像的旋转/变换信息(即查看者如何知道旋转 180 )

python - 使用OpenCV从图像中提取所选区域

javascript - 拖放禁用的输入文本字段!帮我?

html - 删除两个分区相交的边界

python - 如何解析表格中的行,这些行不仅由 <td> 单元格组成,而且偶尔还由 <th> 单元格组成?

java - 如何使用 Gson 解码具有未知字段的 JSON?

jquery - 我该如何解析这个 JSON?

c# - 使用 C# 将 PDF 转换为可工作的文本