HTML 文章内容提取 - Alchemy API 替代方案

我一直在进行大量研究，以找出编写应用程序代码以从几乎所有 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 来解析 XML 的 C 程序，但我遇到了 Alchemy API，它似乎可以满足我的要求。

但是，它只有一个在线 API，我想在不依赖任何外部调用的情况下将应用程序保留在内部。

所以有人有提示吗？我希望有一个离线替代方案可以完成 Alchemy API 的功能(付费/非付费)。

我的替代方案可能是只解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取文章的主要内容。它将使用的网站类型包括带有新闻版 block 或博客的网站。

最佳答案

有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose由 Gravity.com 开源

它包含有关 wiki 的信息以及您可以查看的来源。有数十个单元测试显示从各种文章中提取的文本。

关于HTML 文章内容提取 - Alchemy API 替代方案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4124549/

相关文章：

database - 如何从网站收集数据