python - 在特定文本之后和特定文本之前刮取文本

标签 python python-3.x web-scraping beautifulsoup


<script type="text/javascript">


                        'sku': 'T3246B5',
                        'Name': 'TAS BLACKY',
                        'Price': '111930',
                        'categories': 'Tas,Wanita,Sling Bags,Di bawah Rp 200.000',
                        'brand': '',
                        'visibility': '4',
                        'instock': "1",
                        'stock': "73.0000"

            </script>

我想抓取 : 'stock': "and .0000"之间的文本,所以理想的结果是 73

我以前知道的是做这样的事情:

for url2 in urls2:
        req2 = Request(url2, headers={'User-Agent': 'Chrome/39.0.2171.95'})
        html2 = uReq(req2).read()
        page_soup2 = soup(html2, "html.parser")


        # Grab text
        stock = page_soup2.findAll("p", {"class": "stock"})
        stocks = stock[0].text

我在我以前的代码中使用了类似的东西,它在网络更改他们的代码之前工作。

但是现在我要抓取的整个页面中有超过 1 个 ("script", {"type": "text/javascript"})。所以我不知道如何找到正确的 ("script", {"type": "text/javascript"})

我也不知道如何获取文本前后的具体文本。

我在谷歌上搜索了一整天,但找不到解决方案。请帮忙。

我发现strings = 'stock': "and .0000"在整个页面中是唯一的,只有1个'stock':而且只有1个.0000"

所以我认为这可能是我想抓取文本的位置的标志。

请帮忙,谢谢你的好意。

我也很抱歉我的英语不好,其实我对编程也很陌生。我只是想向谷歌学习,但找不到答案。感谢您的理解。

url = view-source:sophieparis.com/blacky-bag.html

最佳答案

因为您确定 'stock' 只出现在您想要的脚本标签中,所以您可以提取包含 'stock 的文本。一旦你有了它,就是修剪掉多余的部分,并更改为双引号以使其成为有效的 json 格式,然后使用 json.loads()

简单地阅读它
import requests
from bs4 import BeautifulSoup
import json


url2 = 'https://www.sophieparis.com/blacky-bag.html'

req2 = requests.get(url2, headers={'User-Agent': 'Chrome/39.0.2171.95'})

page_soup2 = BeautifulSoup(req2.text, "html.parser")


scripts = page_soup2.find_all('script')

for script in scripts:
    if 'stock' in script.text:
        jsonStr = script.text
        jsonStr = jsonStr.split('productObject = ')[-1].strip()
        jsonStr = jsonStr.rsplit('}',1)[0].strip() + '}'

        jsonData = json.loads(jsonStr.replace("'",'"'))

print (jsonData['stock'].split('.')[0])

输出:

print (jsonData['stock'].split('.')[0])

71

您也可以在没有循环的情况下执行此操作,只需使用 1 行获取其中包含字符串 stock 的脚本:

jsonStr = page_soup2.find('script', text=re.compile(r'stock')).text

完整代码如下所示:

import requests
from bs4 import BeautifulSoup
import json
import re


url2 = 'https://www.sophieparis.com/blacky-bag.html'

req2 = requests.get(url2, headers={'User-Agent': 'Chrome/39.0.2171.95'})

page_soup2 = BeautifulSoup(req2.text, "html.parser")

jsonStr = page_soup2.find('script', text=re.compile(r'stock')).text
jsonStr = jsonStr.split('productObject = ')[-1].strip()
jsonStr = jsonStr.rsplit('}',1)[0].strip() + '}'

jsonData = json.loads(jsonStr.replace("'",'"'))

print (jsonData['stock'].split('.')[0])

关于python - 在特定文本之后和特定文本之前刮取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58540390/

相关文章:

python - 数据框中所有值的频率分布

python - int()参数必须是字符串,类似字节的对象或数字,而不是 'NoneType'

python - 如何在Python中生成按时间排序的uid?

python - 如何删除特定类别的标签?

python - 如何使用 Beautifulsoup 基于嵌套标签来切片和重新组合文本?

自转换以来的 Python 时间戳

python - Python,安装matplotlib时出错

python - 未为 django.db.models 字段默认定义可调用

bash - 寻找库来连接相对/完整网址。

php - 如何使用 php 或 node.js 检测位于首屏的网站内容中的广告