html - 如何解析网页内容?

标签 html web-crawler

我正在编写一个特殊的类似爬虫的应用程序,需要检索各种页面的主要内容。只是为了澄清:我需要页面的真正“内容”(自然地提供一个)

我尝试了多种方法:

  1. 许多页面都有 rss 提要,因此我可以阅读提要并获取此页面的特定内容。
  2. 许多页面使用“内容”元标记
  3. 在很多情况下,屏幕中间显示的对象是页面的主要“内容”

但是,这些方法并不总是有效,而且我注意到 Facebook 在这方面做得非常出色(当您想要附加链接时,他们会向您显示他们在链接页面上找到的内容) 。

那么 - 您对我看过的方法有什么建议吗?

谢谢!

最佳答案

网页上确实没有标准的方式来标记“这是肉”。大多数页面甚至不想要这个,因为它可以更容易地窃取他们的核心业务。所以你真的必须写一个框架,它可以使用每页规则来定位你想要的内容。

关于html - 如何解析网页内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1233366/

相关文章:

javascript - 在 kinetic.js 中旋转 kinetic.group 的问题

html - 如何创建投影?

html - 传单 - map "shadowed",当大小设置为百分比时不可点击

php - 如何使用 php 检测搜索引擎机器人?

ruby-on-rails - Rails : How to write to a custom log file from within a rake task in production mode?

javascript - 如何使 Angular 中的 ui-view 响应?

html - <center> 标签在 IE 中不起作用

python - 使用 python 和 selenium 更改输入字段的值并按 Enter 键

elasticsearch - Storm ui中没有通过拓扑发射或传输元组

cookies - Scrapy Cookie 操作如何?