c# - 从 mht 中提取文本

标签 c# .net regex extract mhtml

我有一个 mht 文件,我想得到 mht 的所有文本。我很难使用正则表达式,但我在 mht 中有除英语以外的其他语言,所以文本本身包含类似 A7=A98=D6 的内容...

选择在浏览器中查看的文件的所有文本,然后将其复制并粘贴到记事本中 - 这就是我需要的。

谢谢。

最佳答案

在 Internet Explorer 中打开文件并将其保存为纯文本 (UTF-8)。 :) 如果您需要自动化解决方案,请寻找适用于您的平台或编程语言的 mht 到 txt 转换器。

实际上,您也可以在 Powershell 中自动执行此操作:

$ie = New-Object -ComObject "InternetExplorer.Application"
$ie.Navigate2("file:///C:/MyFile.mht")
$text = $ie.Document.documentElement.innerText

关于c# - 从 mht 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/869934/

相关文章:

c# - TCP 在不关闭连接的情况下发送多条消息

c# - 将数据表转换为泛型类型列表

c# - .Net Forms 身份验证是否需要 session ?

c# - 为什么 Enum 的 HasFlag 方法需要装箱?

java - 从推文文本中提取主题标签、用户提及和 url 的快速方法?

c# - 如何在Unity中防止 "public"?

c# - 我应该选择 : This is a full trust application

.net - System.ExecutionEngineException : Attempting to JIT compile method System. Threading.Interlocked:Exchange

php - 正则表达式:如果字符串包含括号内的特定单词,则删除括号及其内容

javascript - 如何在 JavaScript 中按行空格/换行符拆分字符串