javascript - 如何从网站服务器端获取文本

我正在寻找从网站获取所有可见文本的简单方法。我获取了该网站的 HTML 并将其存储在“body”变量中。

我找到了这个解决方案:

var StrippedString = OriginalString.replace(/(<([^>]+)>)/ig,"");

它的效果非常好，但是很多网站都有 javascript 和 css。我想分隔普通用户在该页面上阅读内容时可见的所有文本，因此我必须省略 js 脚本等。

I heard that我可以使用 jQuery，但事实上我不能，因为我使用 Node.JS ^^

你有什么想法吗？

最佳答案

我相信对于任何重要的事情你可能需要一个 HTML 解析器。例如，看看 htmlparser2 ，我自己从未使用过它，但看起来它可以帮助你。

关于javascript - 如何从网站服务器端获取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21500014/

相关文章：

javascript - Stripe 业务资料未显示在请求正文中