有人可以推荐一个 Node.Js 模块或 Javascript 库(不基于可读性),它们可用于从网页和 RSS 提要中提取内容吗?
我找到了一个很好的 PHP 库来完成这项工作 - http://fivefilters.org/content-only/ - 但正在寻找可以执行相同操作的 Node.Js 模块。
谢谢!
最佳答案
我专门为此目的编写了一个名为“unfluff”的 Node.js 模块:
https://github.com/ageitgey/node-unfluff
希望这能解决您的问题。
Unfluff 基于流行的“python-goose”和“goose”(Scala) 页面提取库,如果您熟悉的话。
关于javascript - 用于提取网页内容的 Node.Js 模块?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22565081/