html - 如何使用 C 将 HTML 解析为 .txt 格式

标签 html c

我需要使用 C 将 HTML 解析为 .txt 格式。

一个例子 - 它必须检测每个

1. <p>
2. <tr>
3. <ul> etc...

并将它们转换为文本(在文档中)

有人可以帮忙吗?

最佳答案

我认为,下载html的最简单方法网页c就是使用libcurl 。假设您已经设置了开发环境,请按照以下步骤操作:

  1. 访问 download page libcurl并下载其最新版本。
  2. 看看 install page 并了解如何安装该库。对于 Linux,安装非常简单,只需输入 ./configure && make && make install在终端中。
  3. 下载url2file.c libcurl 的示例。 <curl/curl.h>该文件中公开的头文件本质上提供了必要的功能来让您与 Web 服务器进行通信。
  4. 接下来,编译 url2file.c使用gcc -o url2file url2file.c -lcurl .
  5. 最后,测试url2file使用./url2file http://example.com 。结果将存储在page.out中明文文件。

注释:

  1. 您需要安装libcurl为了能够编译url2file.c文件,除非它会抛出 fatal error .
  2. 如果您已经安装了curl程序在您的计算机上,您可以使用 curl http://example.com > page.out 下载网页终端中的命令。
  3. 此外,wget允许您下载和存储网页:wget http://example.com .
  4. 此答案将网页存储为纯文本。它不执行任何特定的html标签处理。

关于html - 如何使用 C 将 HTML 解析为 .txt 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41490972/

相关文章:

php - 在没有javascript的情况下滚动带有溢出的div

javascript - 如何根据 Javascript/AJAX 数据库调用的结果显示 HTML 模式

javascript - XMLHttpRequest 在 PHP 脚本运行时获取数据

无法理解 &(sizeof 2[a])[a]

jquery slider 动画问题

javascript - 如何使 setTimeout 在上次单击 Toggle 时激活?

c - Openssl如何找出X509证书中公钥的位大小是多少

c - 如何使用数组取数字的平均值

c - C 中文件的冒泡排序

c - 将文本文件中的整数放入 C 中的 int 数组