html - 如何使用 C 将 HTML 解析为 .txt 格式

我需要使用 C 将 HTML 解析为 .txt 格式。

一个例子 - 它必须检测每个

1. <p>
2. <tr>
3. <ul> etc...

并将它们转换为文本(在文档中)

有人可以帮忙吗？

最佳答案

我认为，下载html的最简单方法网页c就是使用libcurl 。假设您已经设置了开发环境，请按照以下步骤操作:

访问 download page libcurl并下载其最新版本。
看看 install page 并了解如何安装该库。对于 Linux，安装非常简单，只需输入 ./configure && make && make install在终端中。
下载url2file.c libcurl 的示例。 <curl/curl.h>该文件中公开的头文件本质上提供了必要的功能来让您与 Web 服务器进行通信。
接下来，编译 url2file.c使用gcc -o url2file url2file.c -lcurl .
最后，测试url2file使用./url2file http://example.com 。结果将存储在page.out中明文文件。

注释:

关于html - 如何使用 C 将 HTML 解析为 .txt 格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41490972/