java - 是否有标准化的站点地图格式?

标签 java xml web-scraping sitemap

我想构建一个网络爬虫来抓取一些网站站点地图。我遇到过这种格式几次 https://developer.mozilla.org/sitemap.xml .我想知道这是标准还是有标准。

如果没有,抓取站点地图的最佳方式是什么?正则表达式还是某个库?

最佳答案

我认为您应该为此使用 DOM API。那里解释了站点地图格式 http://www.sitemaps.org/protocol.html

关于java - 是否有标准化的站点地图格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15002683/

相关文章:

java - 如果 @Constraint(validated by = {}),则 Hibernate validator 验证约束

sql-server - TSQL 中的 XML 解析给出无效列错误?

r - 在 R 中使用 rvest 跟踪页面重定向

java - 如何以内存高效的方式将 xml 写入 bean 网络流

python - 在Python中解析HTML数据

web-scraping - 如何人为地创建ConnectionRefusedError?

java - 发布进度?

java-无法在数据库表中设置值以反射(reflect)更改

java - 使用 maven 运行 java 类文件

android - 单击并长按按钮时在线性布局中添加阴影