python - Scrapy 提取脚本值

标签 python regex scrapy

在特定网址上使用 scrapy shell 我试图确定如何从页面源代码中的脚本中提取作者值或贡献者值?我已经尝试过了

response.xpath('//script').re(r'author":"([0-9.]+)"') 

这是网站源代码中的脚本

<script charSet="UTF-8">...
"author":"3810161","contributor":{"id":"3810161"}},
</script>

最佳答案

您是否尝试打印所有 <script> Scrapy 本身的内容? 我想您不会看到与导航检查器中看到的内容相同的内容,因为这些节点似乎是 Javascript 渲染的,而 Scrapy 不处理 Javascript。

如果您只想从这些搜索结果中提取一些内容,您可以使用 api (与您发布的搜索参数相同,但给您一个 JSON 响应,真的更容易解析...)

关于python - Scrapy 提取脚本值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55008581/

相关文章:

python - 为什么 tkinter 比例小部件需要 tkinter 变量

python - 正则表达式模式仅匹配一半

python - Pandas "cut"基于其他列

java - 正则表达式匹配引号中的字符串,里面有双引号

javascript indexOf/替换多个搜索词

python - 从字符串到类型的词法转换

javascript - 为什么这个正则表达式不能按我想要的方式工作?

javascript - Scrapy 和 Xpath 从 JavaScript 代码中提取数据

python 如何将scrapy更新到0.22

python - Scrapy - Reactor 不可重启