首先让我向您澄清,
我有一个包含 &
的 URL,我想抓取它。
当我从命令行手动抓取它时,它工作得很好,但是当我告诉蜘蛛从 xml
文件中读取起始网址时,我遇到了 xml 文件未定义的问题正确地,我 100% 确定问题是起始网址中的 &
,因为当我使用我的代码读取任何没有 &
登录的网址时它,ti 工作得很好
我尝试将 &
更改为 &
但不起作用
请帮忙
顺便说一句,这是网址 https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8&letter=A
最佳答案
尝试对&符号进行百分比编码:
https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8%26letter=A
或者,作为替代方案,使用 ;
作为分隔符:
https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8;letter=A
关于python - scrapy从xml文件读取起始url,该url有 "&",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28401157/