我一直试图从书的接口(interface)一章中理解 C 中修改后的 csvgetline 函数 "The Practice of Programming" .我已经突出显示了对我来说没有意义的代码。
#include "csv.h"
enum { NOMEM = -2 }; /* out of memory signal */
static char* line = NULL; /* input chars */
static char* sline = NULL; /* line copy used by split */
static int maxline = 0; /* size of line[] and sline[] */
static char** field = NULL; /* field pointers */ // This is the problem!
static int maxfield = 0; /* size of field[] */
static int nfield = 0; /* number of fields in field[] */
static char fieldsep[] = ","; /* field separator chars */
static char* advquoted(char *);
static int split(void);
/* endofline: check for and consume \r, \n, \r\n, or EOF */
static int endofline(FILE *fin, int c)
{ … }
/* reset: set variables back to starting values */
static void reset(void)
{ … }
/* csvgetline: get one line, grow as needed */
/* sample input: "LU",86.25,"11/4/1998","2:19PM",+4.0625 */
char* csvgetline( FILE *fin )
{
int i, c;
char *newl, *news;
if (line == NULL) { /* allocate on first call */
maxline = maxfield = 1;
line = (char *) malloc(maxline);
sline = (char *) malloc(maxline);
field = (char **) malloc(maxfield*sizeof(field)); // This is the problem!
if (line == NULL || sline == NULL || field == NULL) {
reset();
return NULL; /* out of memory */
}
}
for (i=0; (c=getc(fin))!=EOF && !endofline(fin,c); i++) {
if (i >= maxline-1) { /* grow line */
maxline *= 2; /* double current size */
newl = (char *) realloc(line, maxline);
if (newl == NULL) {
reset();
return NULL;
}
line = newl;
news = (char *) realloc(sline, maxline);
if (news == NULL) {
reset();
return NULL;
}
sline = news;
}
line[i] = c;
}
line[i] = '\0';
if (split() == NOMEM) {
reset();
return NULL; /* out of memory */
}
return (c == EOF && i == 0) ? NULL : line;
}
/* split: split line into fields */
static int split(void)
{
char *p, **newf;
char *sepp; /* pointer to temporary separator character */
int sepc; /* temporary separator character */
nfield = 0;
if (line[0] == '\0')
return 0;
strcpy(sline, line);
p = sline;
do {
if (nfield >= maxfield) {
maxfield *= 2; /* double current size */
newf = (char **) realloc(field, maxfield * sizeof(field[0]));
if (newf == NULL)
return NOMEM;
field = newf;
}
if (*p == '"')
sepp = advquoted(++p); /* skip initial quote */
else
sepp = p + strcspn(p, fieldsep);
sepc = sepp[0];
printf("%d", sepp[0]); // Debug
sepp[0] = '\0'; /* terminate field */
field[nfield++] = p;
p = sepp + 1;
} while (sepc == ',');
return nfield;
}
/* advquoted: quoted field; return pointer to next separator */
static char *advquoted(char *p)
{ … }
/* csvfield: return pointer to n-th field */
char* csvfield(int n)
{
if (n < 0 || n >= nfield)
return NULL;
return field[n]; // This is the problem!
}
/* csvnfield: return number of fields */
int csvnfield(void)
{
return nfield;
}
/* csvtest main: test CSV library */
int main(void)
{
int i;
char *line;
while ((line = csvgetline(stdin)) != NULL) {
printf("line = `%s'\n", line);
for (i = 0; i < csvnfield(); i++)
printf("field[%d] = `%s'\n", i, csvfield(i)); // This line is a problem
}
return 0;
}
我想不通的是 char**
字段,我认为它是指向字符串/字符数组/字段指针数组的指针。
因此 field[n]
应该包含指向字符串的指针,即字符串的地址而不是字符串本身。但这似乎不是这种情况,因为当它在 printf()
语句中访问时,函数 csvfield(i)
返回值而不是指向的指针第 n 个字段。
我浏览了很多试图理解 char **
的网站,但是信息非常非常有限。一个网站说 char *
是一个指向字符数组的指针,而 char**
是一个指向 char 的指针。另一个网站谈到 char **
类型是标量类型。但我对这个 char **
还是很模糊。
你能给我解释一下吗?
最佳答案
您对书中代码的转录存在一个小问题,然后需要理解 char **field;
才能有意义。
在我这本书的副本中,您难以理解的第一行与您引用的内容不同。你的报价是第一位的;书上说的是第二位的:
field = (char **) malloc(maxfield*sizeof(field));
field = (char **) malloc(maxfield*sizeof(field[0]));
我松了一口气,因为官方版本是正确的,尽管第一个版本会有些巧合。不同之处在于,它为 char **
的 maxfield
副本分配一定量的空间,而所需的是为那么多 char *
分配空间> 值(value)观。现在正巧,sizeof(char **) == sizeof(char *)
,不过最好弄清楚要求的是什么。对于 Xyz *
类型的指针 ptr
,分配 N
值数组的习惯用法是:
Xyz *ptr = (Xyz *)malloc(N * sizeof(*ptr));
当然,*ptr
的类型是 Xyz
,也等同于 ptr[0]
,书。
现在,关于 char **field
......分配的内容可以通过这样的图表来理解:
+-------+ +----------+
| field |---->| field[0] |
+-------+ +----------+
| field[1] |
+----------+
| field[2] |
+----------+
| field[3] |
+----------+
...
初始分配时,field[0]
, field[1]
, ... 都没有初始化值,指向任何地方。在代码中,随着字段的解析,每个字段的空间分配如下:
char ** char * char
+-------+ +----------+ +----------------+
| field |---->| field[0] |---->| String value 1 |
+-------+ +----------+ +----------------+ +----------+
| field[1] |-------------------------->| String 2 |
+----------+ +--------------+ +----------+
| field[2] |---->| Third String |
+----------+ +--------------+
| field[3] |
+----------+
...
数组的元素是连续的;字符串不连续。当然,数组的每个元素都是一个 char *
。
现在,在 csvfield(int n)
中,该函数返回 NULL 或 field[n]
。从图中可以看出,值 field[n]
是 char *
。所以代码是正确的,它确实返回一个 char *
作为函数签名状态。 (即使在严格的警告级别下,代码也可以干净地编译。)
关于无法理解 K&P 编程实践一书中的 csvgetline.c 函数中解释的 char **,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387836/