python-3.x - 如何将网页下载为 .mhtml

标签 python-3.x nlp arabic

我能够成功打开一个 URL 并将结果页面保存为 .html 文件。但是,我无法确定如何下载和保存 .mhtml(网页,单个文件)。

我的代码是:

import urllib.parse, time
from urllib.parse import urlparse
import urllib.request

url = ('https://www.example.com')

encoded_url = urllib.parse.quote(url, safe='')

print(encoded_url)

base_url = ("https://translate.google.co.uk/translate?sl=auto&tl=en&u=")

translation_url = base_url+encoded_url

print(translation_url)

req = urllib.request.Request(translation_url, headers={'User-Agent': 'Mozilla/6.0'})

print(req)

response = urllib.request.urlopen(req)

time.sleep(15)

print(response)

webContent = response.read()

print(webContent)

f = open('GoogleTranslated.html', 'wb')

f.write(webContent)

print(f)

f.close

我尝试使用 wget 使用此问题中捕获的详细信息: How to download a webpage (mhtml format) using wget in python但细节不完整(或者我根本无法理解)。

在此阶段任何建议都会有所帮助。

最佳答案

您是否尝试使用 Selenium 和 Chrome Webdriver 来保存页面?

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.expected_conditions import visibility_of_element_located
from selenium.webdriver.support.ui import WebDriverWait
import pyautogui

URL = 'https://en.wikipedia.org/wiki/Python_(programming_language)'
FILE_NAME = ''

# open page with selenium
# (first need to download Chrome webdriver, or a firefox webdriver, etc)
driver = webdriver.Chrome()
driver.get(URL)


# wait until body is loaded
WebDriverWait(driver, 60).until(visibility_of_element_located((By.TAG_NAME, 'body')))
time.sleep(1)
# open 'Save as...' to save html and assets
pyautogui.hotkey('ctrl', 's')
time.sleep(1)
if FILE_NAME != '':
    pyautogui.typewrite(FILE_NAME)
pyautogui.hotkey('enter')

关于python-3.x - 如何将网页下载为 .mhtml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60352003/

相关文章:

Python-在脚本中多次重新分配对象变量-好的做法吗?

delphi - 非英语语言iOS应用XE4问题

python 标记化 UnicodeDecodeError

statistics - 如何知道何时使用特定类型的相似度索引?欧几里德距离与 PIL 逊相关性

nlp - NLP中下游任务的定义

php - 使用 PHP/MySQL 数据库语句解析 XML 并在 mysql 中导入阿拉伯字母日期格式

php - PHP 和 MySQL 在阿拉伯语和类似语言中的问题概述

python - 嵌套循环列表并动态创建变量

python - 使用urllib在Python 3.5中获取网页的最终重定向

python - 正则表达式查找所有不包含_(下划线)和:(Colon) in PySpark Dataframe column的字符串