我正在寻找从网站获取所有可见文本的简单方法。我获取了该网站的 HTML 并将其存储在“body”变量中。
我找到了这个解决方案:
var StrippedString = OriginalString.replace(/(<([^>]+)>)/ig,"");
它的效果非常好,但是很多网站都有 javascript 和 css。我想分隔普通用户在该页面上阅读内容时可见的所有文本,因此我必须省略 js 脚本等。
I heard that我可以使用 jQuery,但事实上我不能,因为我使用 Node.JS ^^
你有什么想法吗?
最佳答案
我相信对于任何重要的事情你可能需要一个 HTML 解析器。例如,看看 htmlparser2 ,我自己从未使用过它,但看起来它可以帮助你。
关于javascript - 如何从网站服务器端获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21500014/