HTML 文章内容提取 - Alchemy API 替代方案

标签 html html-content-extraction alchemyapi

我一直在进行大量研究,以找出编写应用程序代码以从几乎所有 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 来解析 XML 的 C 程序,但我遇到了 Alchemy API,它似乎可以满足我的要求。

但是,它只有一个在线 API,我想在不依赖任何外部调用的情况下将应用程序保留在内部。

所以有人有提示吗?我希望有一个离线替代方案可以完成 Alchemy API 的功能(付费/非付费)。

我的替代方案可能是只解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取文章的主要内容。它将使用的网站类型包括带有新闻版 block 或博客的网站。

最佳答案

有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose由 Gravity.com 开源

它包含有关 wiki 的信息以及您可以查看的来源。有数十个单元测试显示从各种文章中提取的文本。

关于HTML 文章内容提取 - Alchemy API 替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4124549/

相关文章:

database - 如何从网站收集数据

python - 我在哪里可以找到包含常见食物列表的文本列表或图书馆?

html - 文本输入和按钮对齐

javascript - 自动滚动到特定类(class)的最后一个 child

Python HTML 抓取

html - 如何使用 Linux 命令行以编程方式从网页中提取信息?

html - 如何在 div 保持不变的情况下将文本包装在 div 中?

jquery - 响应式导航在响应模式下激活时搞砸了,然后再次调整大小

node.js - Alchemy 语言 + WKS 模型 + NodeJs

java - 使用 Alchemy 实体提取检索 JSON 输出