我有一个字符串,它被“|”分成两组;空间、垂直条/管道、空间。字符串“ACGT”中只会有四个字符。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组仅包含该组的第一个字符。
相关片段如下:
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences
// Init variables
for (a=0;a<=1;a++){
strcpy(inStrings.strings[a], "");
inStrings.length[a]=0;
}
strcpy(line, "GAAT | GAAT");
使用 sscanf();
sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
返回:
>GAAT< 4
>G< 2
使用 strtok() 例如:
strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
再次返回:
>GAAT< 4
>G< 2
在这个例子中,我希望看到:
>GAAT< 4
>GAAT< 4
我尝试删除 |来自“line”的字符仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。事实上,这里的两个字符串是相同的,这对我没有任何帮助,但我认为一旦解决了问题,这应该是无关紧要的。此外,我也尝试过使用多个不同的字符串。
我假设这是我正在用内存做的事情,或者是函数如何处理内存,这让我很困惑。我还假设 >G< 2
指的是 \0
最后 - 我也无法弄清楚它是如何注入(inject)到字符串中的。在 sscanf() 之后对“line”的检查表明它确实仍然完好无损并且与函数调用之前的“line”相同——尽管我无法对 strtok() 进行有意义的操作。
注意:我不在乎是否使用 strtok() 咀嚼“line”;一旦我把它分成两部分,我就完成了。
最佳答案
这里发生的是未定义的行为。您声明您的结构体有一个名为 strings
的成员,该成员是 1 x 399 个字符的数组;另一个 length
是一个一个整数数组,但写入范围之外。
你的typedef
应该是
typedef struct {
char strings[2][399];
int length[2];
} DoubleLOT;
或者,如果字符串的最大长度为 400 个字符(如您在注释中所述),则应将 399 替换为 401 - 400 个字符并终止 '\0'
。
但除此之外,我还可以知道您的平台上发生了什么,以及为什么您会看到该输出。
以下结构
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
在正常的 LP64 架构上,会有一个 1x399 的字符数组,后跟 1 个填充字节,再后跟一个 32 位整数的 4 对齐数组。
现在,当您复制到 inString.strings[0]
时,只要字符串适合这 399 个字符,一切就都很好。但写入 inString.strings[1]
是未定义的行为,因为该内存未分配。然而,在这种情况下,一切看起来都很好,因为字符串“GAAT”
被写入,以便'G'
进入填充字节,并且“AAT”
和终止'\0'
将被写入inString.length[0]
。
之后写入inString.strings[0]
的长度; 4 以小尾数法表示,放入 inString.length[0]
。字节 0x04, 0x00, 0x00, 0x00
被写入字节 'A', 'A', 'T' 和 '\0'
;
现在inString.strings[1]
看起来只有1个字符;第二个字符 ASCII 4 是不可打印的控制字符。但事实证明它确实存在,strlen(inString.strings[1])
是 2,而不是 1。
最后,在 DoubleLOT inStrings;
之后,将 strlen(inString.strings[1])
写入堆栈/全局变量上的其他内容。
关于c - sscanf 和 strtok 未返回 "complete"答案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35876474/