javascript - 如何从网站服务器端获取文本

标签 javascript node.js

我正在寻找从网站获取所有可见文本的简单方法。我获取了该网站的 HTML 并将其存储在“body”变量中。

我找到了这个解决方案:

var StrippedString = OriginalString.replace(/(<([^>]+)>)/ig,"");

它的效果非常好,但是很多网站都有 javascript 和 css。我想分隔普通用户在该页面上阅读内容时可见的所有文本,因此我必须省略 js 脚本等。

I heard that我可以使用 jQuery,但事实上我不能,因为我使用 Node.JS ^^

你有什么想法吗?

最佳答案

我相信对于任何重要的事情你可能需要一个 HTML 解析器。例如,看看 htmlparser2 ,我自己从未使用过它,但看起来它可以帮助你。

关于javascript - 如何从网站服务器端获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21500014/

相关文章:

javascript - Stripe 业务资料未显示在请求正文中

javascript - 基础站点(6)javascript顺序

javascript - 如何为json数据添加过滤器

javascript - 为什么我不能删除 Mongoose 模型的对象属性?

javascript - 如何避免为每个 html 文件添加 ExpressJS app.get()?

javascript - navigator.mediaDevices.getUserMedia 是否适用于混合应用程序?

javascript - Django 模型选择字段提交

javascript - 在nodejs中获取最大调用堆栈大小超出错误

javascript - Express 中来自 React 子组件的 POST 请求

node.js - 使用jade从文件中读取数据并传递到模板