我需要使用 C 将 HTML 解析为 .txt 格式。
一个例子 - 它必须检测每个
1. <p>
2. <tr>
3. <ul> etc...
并将它们转换为文本(在文档中)
有人可以帮忙吗?
最佳答案
我认为,下载html
的最简单方法网页c
就是使用libcurl 。假设您已经设置了开发环境,请按照以下步骤操作:
- 访问 download page
libcurl
并下载其最新版本。 - 看看 install page 并了解如何安装该库。对于 Linux,安装非常简单,只需输入
./configure && make && make install
在终端中。 - 下载url2file.c
libcurl
的示例。<curl/curl.h>
该文件中公开的头文件本质上提供了必要的功能来让您与 Web 服务器进行通信。 - 接下来,编译
url2file.c
使用gcc -o url2file url2file.c -lcurl
. - 最后,测试
url2file
使用./url2file http://example.com
。结果将存储在page.out
中明文文件。
注释:
- 您需要安装
libcurl
为了能够编译url2file.c
文件,除非它会抛出fatal error
. - 如果您已经安装了
curl
程序在您的计算机上,您可以使用curl http://example.com > page.out
下载网页终端中的命令。 - 此外,
wget
允许您下载和存储网页:wget http://example.com
. - 此答案将网页存储为纯文本。它不执行任何特定的
html
标签处理。
关于html - 如何使用 C 将 HTML 解析为 .txt 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41490972/