html - 抓取站点以报告 HTML 中出现的 css 选择器

标签 html css web-scraping reporting

我想看看我的团队有多少代码已集成到大型网站中。

我相信我可以通过统计某些 CSS 选择器在所有 HTML 页面中出现的次数来实现这一目标(尽管是粗略的)。我有一些独特的 CSS 类选择器,我想在抓取网站进行分析时使用它们:

  1. 选择器出现在多少页上。
  2. 它在任何页面上显示了多少次。

我环顾四周,但找不到任何工具 - 有没有人知道任何工具,或者可以提出任何可以帮助我快速实现这一目标的想法?

提前致谢。

最佳答案

感谢大家的建议。

最后我决定没有一种工具可以帮助我按照我描述的方式收集统计数据,所以我已经开始在 Node 中构建我需要的应用程序。虽然我之前没有使用过 Node,但我发现它可以快速掌握 Javascript 的中级知识。

对于任何想做同样事情的人:

我使用 Simplecrawler 运行网站并使用 Cheerio 查找选择器,由此我可以使用 FS< 在 Json 中创建一个简单的报告/strong>.

关于html - 抓取站点以报告 HTML 中出现的 css 选择器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33487686/

相关文章:

python - 类型错误 : 'NoneType' object is not callable (Python: Scraping from HTML data)

python - Heroku 中的 H14 错误 - "no web processes running"

javascript - 如何使用 initSelection 附加 jquery select2 值

html - "Burger"样式菜单栏长度

jquery - 覆盖背景图片和jquery局部滚动

python - NOAA 每小时数据与 python

html - HTTPS 迁移

javascript - 使 div 扩展以占用所有可用空间

html - 使用 HTML/CSS(响应式)重新创建背景图像信息栏

python - 从亚马逊抓取网页内容