我正在编写一个特殊的类似爬虫的应用程序,需要检索各种页面的主要内容。只是为了澄清:我需要页面的真正“内容”(自然地提供一个)
我尝试了多种方法:
- 许多页面都有 rss 提要,因此我可以阅读提要并获取此页面的特定内容。
- 许多页面使用“内容”元标记
- 在很多情况下,屏幕中间显示的对象是页面的主要“内容”
但是,这些方法并不总是有效,而且我注意到 Facebook 在这方面做得非常出色(当您想要附加链接时,他们会向您显示他们在链接页面上找到的内容) 。
那么 - 您对我看过的方法有什么建议吗?
谢谢!
最佳答案
网页上确实没有标准的方式来标记“这是肉”。大多数页面甚至不想要这个,因为它可以更容易地窃取他们的核心业务。所以你真的必须写一个框架,它可以使用每页规则来定位你想要的内容。
关于html - 如何解析网页内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1233366/