我正在使用 puppeteer 抓取一系列简单的 html 页面。我想提取正文中 html 元素的全部或大部分 innerText,并以有组织的方式填充 json 文件。
页面的格式有一些变化。我想知道是否有一种方法可以很好地从页面中提取文本并对其进行组织,而不太依赖于页面的格式。
我很确定我可以编写程序来说明如果是格式 1,则像这样导航,否则如果是格式 2,则像这样导航,依此类推。不过,我正在寻找一种更优雅的方法,将页面中的所有内部文本提取到 json 中,并且仍然能够按其元素对其进行组织。
最佳答案
我推荐treeWalker来获取所有textNodes
我写了一个扩展,它可以做类似的事情来突出显示
https://github.com/asyncb/selection-highlighter/blob/master/highlighter.js
关于javascript - 将所有innerText从页面拉入json的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56301727/