c - sscanf 和 strtok 未返回 "complete"答案

标签 c strtok scanf

我有一个字符串,它被“|”分成两组;空间、垂直条/管道、空间。字符串“ACGT”中只会有四个字符。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组仅包含该组的第一个字符。

相关片段如下:

typedef struct {
  char strings[1][399]; // 2D array of the strings
  int length[1]; // Line Length 1 and 2
} DoubleLOT;

char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences

// Init variables
for (a=0;a<=1;a++){
  strcpy(inStrings.strings[a], "");
  inStrings.length[a]=0;
}

strcpy(line, "GAAT | GAAT");

使用 sscanf();

sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

返回:

>GAAT< 4
>G< 2

使用 strtok() 例如:

strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

再次返回:

>GAAT< 4
>G< 2

在这个例子中,我希望看到:

>GAAT< 4
>GAAT< 4

我尝试删除 |来自“line”的字符仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。事实上,这里的两个字符串是相同的,这对我没有任何帮助,但我认为一旦解决了问题,这应该是无关紧要的。此外,我也尝试过使用多个不同的字符串。

我假设这是我正在用内存做的事情,或者是函数如何处理内存,这让我很困惑。我还假设 >G< 2指的是 \0最后 - 我也无法弄清楚它是如何注入(inject)到字符串中的。在 sscanf() 之后对“line”的检查表明它确实仍然完好无损并且与函数调用之前的“line”相同——尽管我无法对 strtok() 进行有意义的操作。

注意:我不在乎是否使用 strtok() 咀嚼“line”;一旦我把它分成两部分,我就完成了。

最佳答案

这里发生的是未定义的行为。您声明您的结构体有一个名为 strings 的成员,该成员是 1 x 399 个字符的数组;另一个 length 是一个一个整数数组,但写入范围之外。

你的typedef应该是

typedef struct {
    char strings[2][399];
    int length[2];
} DoubleLOT;

或者,如果字符串的最大长度为 400 个字符(如您在注释中所述),则应将 399 替换为 401 - 400 个字符并终止 '\0'

<小时/>

但除此之外,我还可以知道您的平台上发生了什么,以及为什么您会看到该输出。

以下结构

typedef struct {
    char strings[1][399]; // 2D array of the strings
    int length[1]; // Line Length 1 and 2
} DoubleLOT;

在正常的 LP64 架构上,会有一个 1x399 的字符数组,后跟 1 个填充字节,再后跟一个 32 位整数的 4 对齐数组。

现在,当您复制到 inString.strings[0] 时,只要字符串适合这 399 个字符,一切就都很好。但写入 inString.strings[1] 是未定义的行为,因为该内存未分配。然而,在这种情况下,一切看起来都很好,因为字符串“GAAT”被写入,以便'G'进入填充字节,并且“AAT”和终止'\0'将被写入inString.length[0]

之后写入inString.strings[0]的长度; 4 以小尾数法表示,放入 inString.length[0]。字节 0x04, 0x00, 0x00, 0x00 被写入字节 'A', 'A', 'T' 和 '\0'

现在inString.strings[1]看起来只有1个字符;第二个字符 ASCII 4 是不可打印的控制字符。但事实证明它确实存在,strlen(inString.strings[1]) 是 2,而不是 1。

最后,在 DoubleLOT inStrings; 之后,将 strlen(inString.strings[1]) 写入堆栈/全局变量上的其他内容。

关于c - sscanf 和 strtok 未返回 "complete"答案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35876474/

相关文章:

c++ - 如何从尾部到头部反向 strtok C++ 字符串?

c - 使用 strtok() 并在后台执行 UNIX 命令

c - 使用 scanf 一次返回一个字符串,以特定字符分隔

c - fscanf() 返回负值

c - 输入字符串后刷新标准输入,以随后输入下一个字符

c++ - MATLAB C 生成编码器可以生成适合嵌入式系统的 C 代码吗?

c++ - 使用 for 、if 和 else 的正确 openmp 实现

c++ - 当我尝试将 char* 分成标记时出现段错误

c - 了解 struct itimerval 字段 tv_usec

c - 什么是复制未对齐位数组的高效算法?