html - 如何解析网页内容？

我正在编写一个特殊的类似爬虫的应用程序，需要检索各种页面的主要内容。只是为了澄清:我需要页面的真正“内容”(自然地提供一个)

我尝试了多种方法:

但是，这些方法并不总是有效，而且我注意到 Facebook 在这方面做得非常出色(当您想要附加链接时，他们会向您显示他们在链接页面上找到的内容) 。

那么 - 您对我看过的方法有什么建议吗？

谢谢!

最佳答案

网页上确实没有标准的方式来标记“这是肉”。大多数页面甚至不想要这个，因为它可以更容易地窃取他们的核心业务。所以你真的必须写一个框架，它可以使用每页规则来定位你想要的内容。

关于html - 如何解析网页内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1233366/