c++ - 为什么要考虑缓冲区而不是行? fgets() 可以一次读取多行吗?

标签 c++ unix network-programming

最近我一直在阅读 Unix Network Programming Vol.1。 3.9节,图3.18上面最后两段说了,这里我引用:

...But our advice is to think in terms of butters and not lines, Write your code to read butters of data, and if a line is expected, check the buffer to see if it contains that line.

在下一段中,作者给出了一个更具体的例子,我在这里引用:

...as we'll see in Section 6.3. System functions like select still won't know about readline's internal buffer, so a carelessly written program could easily find itself waiting in select for data already received and stored in readline's butters.

在 6.5 节中,实际问题是“stdio 和 select() 的混合”,这会使程序,这里我引用这本书,“容易出错”。但是怎么做呢?

我知道作者在同一部分的后面给出了答案,根据我对本书的理解,这是因为 select() 隐藏了数据,因此 select() 无法知 Prop 有被读取是否被消耗。

答案就在那里,但这里的第一个问题是我真的很难得到它,我无法想象它会对程序造成什么损害,也许我需要一个遇到问题的演示程序来帮助我明白了。

仍然在第 6.5 节中,作者试图通过给出进一步解释问题,这里我引用:

... Consider the case when several lines of input are available from the standard input. select will cause the code at line 20 to read the input using fgets and that, in turn, will read the available lines into a buffer used by stdio. But, fgets only returns a single line and leaves any remaining data sitting in the stdio buffer ...

上面所说的“第20行”是:

if (Fgets(sendline, MAXLINE, fp) == NULL)

其中 sendline 是一个 char 数组,fp 是一个指向 FILE 的指针。我查看了 Fgets 的详细实现,它只是用一些额外的错误处理逻辑包装了 fgets(),仅此而已。

我的第二个问题来了,fgets 是如何做到的,在这里我再次引用,阅读可用的?我的意思是,我查看了 fgets 的手册页,它说 fgets 通常在第一个换行符处停止。这是否意味着 fgets 只会读取一行?更具体地说,如果我在终端中键入一行并按回车键,那么 fgets 会读取这一行。我再次这样做,然后下一个新行被 fgets 读取,并且点是一次一行。

感谢您耐心阅读所有说明,并期待您的回答。

最佳答案

考虑缓冲区而不是行的主要原因之一(当涉及到网络编程时)是因为 TCP 是一种流协议(protocol),其中数据只是一个字节流,以连接开始并以断开连接结束。

没有消息边界,也没有“线”,除了 TCP 之上的应用层协议(protocol)已经决定。

这使得从 TCP 连接中读取“线路”变得不可能,因为它没有这样的原始函数。您必须使用缓冲区读取。并且由于流式传输和缺乏任何类型的边界,接收数据的单个调用可能会给您的应用程序提供比您要求的更少的信息,并且它可能是部分应用程序级别的消息。或者您可能会收到不止一条消息,包括最后的部分消息。

另一个重要的注意事项是,默认情况下套接字是阻塞,因此没有准备好接收任何数据的套接字将导致任何读取调用阻塞,并等待直到有数据. select 调用仅说明读取调用是否现在不会阻塞。如果您在一个循环中多次执行 read 调用,它可以(并且最终会)在要接收的数据用完时阻塞。

所有这些都使得使用像 fgets 这样的高级函数(当然是在 fdopen 调用之后)从 TCP 套接字读取数据变得非常困难,因为它可以阻塞如果您使用阻塞套接字,可以随时使用。或者,如果您使用非阻塞套接字,它可能会返回失败,并且 read 调用会返回将阻塞的失败(是的,作为错误返回)。

如果您使用自己的缓冲,您可以在与 readrecv 相同的循环中使用 select,以确保调用不会阻塞。或者您使用非阻塞套接字,您可以通过单个读取调用收集数据(并附加到缓冲区),并在您有完整消息时添加检测(通过知道其长度或通过检测消息终止符或分隔符,如换行符)。


至于 fgets 读取“多行”,它可能导致底层读取用多行填充缓冲区,但 fgets 函数本身只会填充您提供的单行缓冲区。

fgets 永远不会给你多行。

关于c++ - 为什么要考虑缓冲区而不是行? fgets() 可以一次读取多行吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71939207/

相关文章:

c++ - 这个关于确定将参数传递给函数的方法的技巧给我带来了一些困惑

c++ - 在 leveldb 的 c++ 示例中声明迭代器时出现段错误

c++ - 如何将 QNetworkAccessManager 移植到 WebEngine?

c++ - 将Windows消息循环封装成一个DLL

在unix c中逐字节比较两张图片

linux - 我可以使用带有 O_CREAT 和 flock(2) 的 open(2) 来防止脚本启动两次吗?

network-programming - 如何遍历IP地址范围?

c - 使用 printf 和 inet_ntoa 打印 ip 地址时出现奇怪的错误

ubuntu - 使用 Gnuplot 制作多重折线图

java - JXTA支持语音聊天吗?