javascript - 将所有innerText从页面拉入json的最佳方法?

标签 javascript node.js json puppeteer

我正在使用 puppeteer 抓取一系列简单的 html 页面。我想提取正文中 html 元素的全部或大部分 innerText,并以有组织的方式填充 json 文件。

页面的格式有一些变化。我想知道是否有一种方法可以很好地从页面中提取文本并对其进行组织,而不太依赖于页面的格式。

我很确定我可以编写程序来说明如果是格式 1,则像这样导航,否则如果是格式 2,则像这样导航,依此类推。不过,我正在寻找一种更优雅的方法,将页面中的所有内部文本提取到 json 中,并且仍然能够按其元素对其进行组织。

最佳答案

我推荐treeWalker来获取所有textNodes

我写了一个扩展,它可以做类似的事情来突出显示

https://github.com/asyncb/selection-highlighter/blob/master/highlighter.js

关于javascript - 将所有innerText从页面拉入json的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56301727/

相关文章:

JavaScript insertAt 位置

javascript - 纯javascript禁用div内的所有表单元素

javascript - Axios 和 fetch 以来自同一外部端点的不同状态代码响应

node.js - 模式更改后如何从 mongo 中获取旧记录

javascript - Node.js:新版本中存在严重的内存泄漏错误?

json - 在 .NET Core 3.0 中验证字符串是否是有效的 json(最快的方式)

javascript - 如何在页面互换时添加动画?

javascript - jquery 中的 mouseenter 导致异常行为

php - 如何使用 laravel5 从数据 mysql 中提取 json 数据作为对象?

php - 当内容类型为 HTML 时,JSON_PRETTY_PRINT 无法按预期工作