html - 在 url 的层次结构下提取文件/页面名称

标签 html css url extract

鉴于我有一个链接,我如何提取层次结构下的文件/页面名称,

例如在这个 stackoverflow 交换中, https://stackoverflow.com/questions/
之后有许多链接。

stackoverflow.com/questions/31236312
stackoverflow.com/questions/31235818
... 等等

我知道“stackoverflow.com/questions/”,并希望找出这些数字和后面的名字。

有什么办法吗?

我正在调查的网站使用 CSS 和 例如,它不允许访问 stackoverflow.com/questions/(我收到错误 403——禁止访问)
但只允许其下的特定页面。
这些文件名由数字和字母字符组成,即72304,或 A1103457 等

该层次结构下有超过 100 个文件,我希望找出其所有名称/url。

非常感谢。

最佳答案

简而言之,你不能。没有办法只抓取给定 url/域路径下的每个页面。

在更长的时间内......你可以使用像这样的蜘蛛 https://github.com/mvdbos/php-spider

跟踪链接并进行广度深度搜索,查找它可以在给定 url 下找到的所有链接。然而,它会加载它找到的每个页面,搜索链接然后继续。因此它在大型网站上会非常慢,并可能导致帐户锁定和违反服务条款。

关于html - 在 url 的层次结构下提取文件/页面名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31236373/

相关文章:

http - 这是 REST API 的有效映射吗?

Laravel Assets 与相对路径

php - 使用PHP上传文件并添加到MySQL数据库的路径

html - 动态隐藏/覆盖 CSS 类

javascript - 控制台 img src 始终未定义

css - css 可见溢出内容如何具有非透明背景以便隐藏下面的内容?

html - 如何使用负 z-index 使链接可点击?

jQuery:悬停链接时动画(淡入淡出)div 中的背景颜色或图像?

html - 显示内容溢出: hidden and transform: translate

ios - UIPickerView "didSelectRow"选择带有指向 url 的按钮