python - 如何从网页中嵌入的 Tableau 图表中抓取工具提示值

标签 python web-scraping graph web-crawler tableau-api

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值。

以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例:

https://public.tableau.com/views/NumberofCOVID-19patientsadmittedordischarged/DASHPublicpage_patientsdischarges?:embed=y&:showVizHome=no&:host_url=https%3A%2F%2Fpublic.tableau.com%2F&:embed_code_version=3&:tabs=no&:toolbar=yes&:animate_transition=yes&:display_static_image=no&:display_spinner=no&:display_overlay=yes&:display_count=yes&publish=yes&:loadOrderID=1

我从要从中抓取的原始网页中获取了此网址:

https://covid19.colorado.gov/hospital-data

感谢任何帮助。

最佳答案

编辑

我做了a python library to scrape tableau dashboard 。实现更简单:

from tableauscraper import TableauScraper as TS

url = "https://public.tableau.com/views/Colorado_COVID19_Data/CO_Home"

ts = TS()
ts.loads(url)
dashboard = ts.getDashboard()

for t in dashboard.worksheets:
    #show worksheet name
    print(f"WORKSHEET NAME : {t.name}")
    #show dataframe for this worksheet
    print(t.data)

run this on repl.it


旧答案

该图形似乎是在 JS 中根据 API 的结果生成的,如下所示:

POST https://public.tableau.com/TITLE/bootstrapSession/sessions/SESSION_ID 

SESSION_ID 参数(除其他外)位于用于构建 iframe 的 URL 中的 tsConfigContainer 文本区域中。

https://covid19.colorado.gov/hospital-data开始:

  • 使用 tableauPlaceholder 类检查元素
  • 获取带有属性nameparam元素
  • 它为您提供网址:https://public.tableau.com/views/{urlPath}
  • 上一个链接为您提供了一个带有 id tsConfigContainer 的文本区域,其中包含一堆 json 值
  • 提取session_id和根路径(vizql_root)
  • 使用 sheetId 作为表单数据在 https://public.tableau.com/ROOT_PATH/bootstrapSession/sessions/SESSION_ID 上发布 POST
  • 从结果中提取json(结果不是json)

代码:

import requests
from bs4 import BeautifulSoup
import json
import re

r = requests.get("https://covid19.colorado.gov/hospital-data")
soup = BeautifulSoup(r.text, "html.parser")

# get the second tableau link
tableauContainer = soup.findAll("div", { "class": "tableauPlaceholder"})[1]
urlPath = tableauContainer.find("param", { "name": "name"})["value"]

r = requests.get(
    f"https://public.tableau.com/views/{urlPath}",
    params= {
        ":showVizHome":"no",
    }
)
soup = BeautifulSoup(r.text, "html.parser")

tableauData = json.loads(soup.find("textarea",{"id": "tsConfigContainer"}).text)

dataUrl = f'https://public.tableau.com{tableauData["vizql_root"]}/bootstrapSession/sessions/{tableauData["sessionid"]}'

r = requests.post(dataUrl, data= {
    "sheet_id": tableauData["sheetId"],
})

dataReg = re.search('\d+;({.*})\d+;({.*})', r.text, re.MULTILINE)
info = json.loads(dataReg.group(1))
data = json.loads(dataReg.group(2))

print(data["secondaryInfo"]["presModelMap"]["dataDictionary"]["presModelHolder"]["genDataDictionaryPresModel"]["dataSegments"]["0"]["dataColumns"])

从那里您可以获得所有数据。您将需要寻找数据的分割方式,因为似乎所有数据都是通过单个列表转储的。也许查看 JSON 对象中的其他字段对此很有用。

关于python - 如何从网页中嵌入的 Tableau 图表中抓取工具提示值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61962611/

相关文章:

python - 从python中的字典制作表格

python - 杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

android - MPAndroidChart:让一张图反射(reflect)姐妹图上的缩放/滑动

graph - 在 gremlin 查询中显示子级别

graph - 子图之间的距离增加

python - python 中的变异列表

python - 了解自定义数组容器的 numpy.log 和 numpy.sum 之间的区别

python - 删除在 1 列中总和为零但在 Pandas 中重复的行

python - 如何通过 Python 中的 Selenium 从相对于多个分隔符动态变化的字符串中检索子字符串

javascript - CasperJS:将抓取的数据导出到结构化的 Excel 或 CSV