javascript - 使用 REGEX 在 Node js 中提取 HTML 文档的 <BODY> 文本

标签 javascript html node.js regex

我正在编写一个代码来从 HTML 代码的标签中提取所有纯内容。我知道这可以使用文档元素来完成。但我需要只使用 REGEX 来做到这一点 我编写了以下代码,但它有一些错误,我无法弄清楚如何解决它。

function htmlToText(html) {
      return html.
        replace(/(.|\n)*<body.*>/, ''). //remove up till body
        replace(/<\/body(.|\n)*/, ''). //remove from </body
        replace(/<.+\>/, ''). //remove tags
        replace(/^\s\n*$/gm, '');  //remove empty lines
    }

解决办法如下

function htmlToText(html) {
          return html.
            replace(/(.|\n)*<body.*>/, ''). //remove up till body
            replace(/<\/body(.|\n)*/g, ''). //remove from </body
            replace(/<.+\>/g, ''). //remove tags
            replace(/^\s\n*$/gm, '');  //remove empty lines
        }

最佳答案

不用想太多,document.body.innerText就可以了

A Sample Document
Some strong and emphasized text

JSFiddle example

关于javascript - 使用 REGEX 在 Node js 中提取 HTML 文档的 <BODY> 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52426069/

相关文章:

javascript - 如何获取变量值 'typeof'

javascript - 如何为一个Element设置变化属性?使用 JS 而不是 JQuery

jquery - 如何停止我的 jquery 动画?

node.js - NodeJS 是否遵守 Docker 虚拟化和资源限制?

javascript - 在客户端压缩图像(AngularJS)并上传到服务器(NodeJS)

javascript - rainbow.js 不运行 Rainbow.color();启动时

javascript - 在这种情况下如何使用 javascript split 函数

javascript - 如果用户存在于 mongo 上并创建用户,如何使用 nest js 抛出异常?

javascript - D3淡入淡出功能圆图

css - HTML5 输入数字最小最大值不适用于必需的