javascript - 用于提取网页内容的 Node.Js 模块?

标签 javascript node.js text text-extraction rss-reader

有人可以推荐一个 Node.Js 模块或 Javascript 库(不基于可读性),它们可用于从网页和 RSS 提要中提取内容吗?

我找到了一个很好的 PHP 库来完成这项工作 - http://fivefilters.org/content-only/ - 但正在寻找可以执行相同操作的 Node.Js 模块。

谢谢!

最佳答案

我专门为此目的编写了一个名为“unfluff”的 Node.js 模块:

https://github.com/ageitgey/node-unfluff

希望这能解决您的问题。

Unfluff 基于流行的“python-goose”和“goose”(Scala) 页面提取库,如果您熟悉的话。

关于javascript - 用于提取网页内容的 Node.Js 模块?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22565081/

相关文章:

JavaScript - 从日志文件中提取 JSON

node.js - 如何使用履行代码在 Dialogflow 中设置 agent.parameters?

html - 为什么某些特定的 Unicode 字符无法在 Google Chrome 中呈现?

c++ - 为什么我的 QML textArea 没有 append ?

javascript - 如何使用 @run-at document-start 元规则

javascript - 对存储在变量中的 div 内容进行排序

javascript - 将屏幕阅读器的焦点设置在 ember 中的模态警报上

javascript - Webpack:使用 Bundle.js, "React is not defined"

javascript - Coffeescript:动态创建调用方法的类的实例

android - 如何在 Jetpack Compose 中使文本可滚动