我使用 lynx 从特定网页中提取所有链接。
lynx -dump http://www.example.com/videos | awk '/http/"{print $2}"' >> links.txt
它给出以下输出:
http://www.example.com/home/
http://www.example.com/contact/
http://www.example.com/videos/
..
..
..
..
http://www.example.com/video/1001/The-title-of-video
http://www.example.com/video/1002/The-title-of-video
http://www.example.com/video/1003/The-title-of-video
http://www.example.com/video/1004/The-title-of-video
..so on
我想做以下事情。
- 只输出那些包含/video/的链接
- 删除链接末尾的标题http://www.example.com/video/1001/
The-title-of-video应该只输出 http://www.example.com/video/1001/
最佳答案
使用grep
过滤输出,sed
去除标题:
lynx -dump http://www.example.com/videos | grep /video/ | sed 's=/[^/]*$=='
关于linux - 删除特定分隔符后的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33699065/