我一直在进行大量研究,以找出编写应用程序代码以从几乎所有 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 来解析 XML 的 C 程序,但我遇到了 Alchemy API,它似乎可以满足我的要求。
但是,它只有一个在线 API,我想在不依赖任何外部调用的情况下将应用程序保留在内部。
所以有人有提示吗?我希望有一个离线替代方案可以完成 Alchemy API 的功能(付费/非付费)。
我的替代方案可能是只解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取文章的主要内容。它将使用的网站类型包括带有新闻版 block 或博客的网站。
最佳答案
有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose由 Gravity.com 开源
它包含有关 wiki 的信息以及您可以查看的来源。有数十个单元测试显示从各种文章中提取的文本。
关于HTML 文章内容提取 - Alchemy API 替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4124549/