c - 从字符串中提取单词(单词之间用空格和制表符分隔,可能是多个)

标签 c string file-io

我正在尝试用 C 创建一个从文件中读取输入的程序,让它成为 Input.inp ,其中包含带有空格和制表符分隔的单词的字符串,可能是多个,然后写入文件 Output.out,每个单词占一行。例如,输入文件包含

Hi  my name         is Yang

那么输出文件将如下所示

Hi
my
name 
is 
Yang

此外,如果程序到达文件末尾或到达“#”,程序将停止读取。

下面是我的代码。我从文件中获取字符,然后检查它是否是“#”或文件结尾。如果不是,它将检查该字符是否是空格、制表符或行尾。如果不是,则该字符将被放入字符串“word”中。现在,如果我们到达空格、制表符或行尾,那么我将打印字符串“word”,将 pos 设置回 0 并继续执行此操作。但这行不通。有人可以解释为什么我的代码失败并为我提供如何解决此问题的指导吗?

#include <stdio.h>
#include <string.h>
#include <stdlib.h>

#define maxn 300

int main(){
    FILE *fin, *fout;
    fin = fopen("splitwords.inp", "r");
    fout = fopen("splitwords.txt", "w");
    char buffer[maxn], word[maxn], ch, d;
    int i, pos = 0;

    while((ch = fgetc(fin)) != EOF && ch != '#'){
        while(ch != ' ' && ch != '\t' && ch != '\0'){
            word[pos] = ch;
            pos++;
            if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){
                word[pos] = '\0';
                fputs(word, fout);
                printf("%s", word);
                pos = 0;
            }
        }
        if(ch == ' ' || ch == '\t' || ch == '\0') continue;
    }

    fclose(fin);
    fclose(fout);
}

最佳答案

关于您的提案的一些评论

正如评论中所说,当您读取一个字符时,使用 int 来保存它,而不是 char,您的编译器可能会发出警告在 while((ch = fgetc(fin)) != EOF 上发出问题信号,例如 由于数据类型范围有限,比较始终为真,这是因为 EOF 无法保存在 char 中。因此,在您的代码中,chd 必须是 int>

检查fopen的结果以确保您打开了文件。

最好添加( )以避免运算符之间可能出现的优先级问题,因此替换

while((ch = fgetc(fin)) != EOF && ch != '#')

while(ch != ' ' && ch != '\t' && ch != '\0'){

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

if(ch == ' ' || ch == '\t' || ch == '\0')

by(不考虑其他可能的问题)

while(((ch = fgetc(fin)) != EOF) && (ch != '#'))

while((ch != ' ') && (ch != '\t') && (ch != '\0')){

if(((d = fgetc(fin)) == ' ') || (d == '\t') || (d == '\0')){

if((ch == ' ') || (ch == '\t') || (ch == '\0'))

正如评论中所说,如果您输入这两个 while :

while((ch = fgetc(fin)) != EOF && ch != '#'){
   while(ch != ' ' && ch != '\t' && ch != '\0'){

你将永远无法出去,因为ch内部没有改变,所以你在word中写了越来越多的东西,最后以未定义的行为离开了它(通常是崩溃)。

您不需要检查空字符的大小写,它不存在于文本文件中。

您错过了管理换行符的大小写('\n' 和 '\r')

独立于问题,因为ch不变,你从不检查读取的单词是否足够长而无法放入单词,你不能认为它在任何情况下都会。

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

您错过了管理换行符的大小写,并且不必管理空字符的大小写。

线路

if(ch == ' ' || ch == '\t' || ch == '\0') continue;

没用,它位于 while block 的末尾,所以即使没有它,你也会重新循环

<小时/>

create a program in C that read inputs from a file, let it be Input.inp that contains strings with words that is separated with spaces and tabs, possibly multiple and then write to a file Output.out, with each word on a line.

你的程序也太复杂了,你不需要将单词保存在内存中(这也有能够管理超过299个单词的优点),你的目标是将每个单词放在输出中的单独行上文件,所以一个简单的解决方案是:

#include <stdio.h>

int main()
{
  FILE *fin, *fout;
  
  if ((fin = fopen("splitwords.inp", "r")) == NULL)
    puts("cannot open splitwords.inp");
  else {
    if ((fout = fopen("splitwords.txt", "w"))  == NULL)
      puts("cannot open splitwords.txt");
    else {
      int word = 0; /* not inside a word */
      int c; /* an int to manage EOF */
      
      while (((c = fgetc(fin)) != EOF) && (c != '#')) {
        if ((c == ' ') || (c == '\t') ||
            (c == '\n') || (c == '\r')) { /* can use isspace() */
          if (word) {
            /* the space finishes a word, add the new line */
            fputc('\n', fout);
            word = 0; /* not in a word now */
          }
        }
        else {
          fputc(c, fout); /* char of word are placed in output file */
          word = 1; /* we are in a word */
        }
      }
      
      if (word) {
        /* we was reading a word, need to add the final newline */
        fputc('\n', fout);
      }
      
      fclose(fout);
    }
    
    fclose(fin);
  }
}

编译和执行:

/tmp % gcc -pedantic -Wextra f.c
/tmp % cat splitwords.inp
Hi  my name         is Yang
/tmp % ./a.out
/tmp % cat splitwords.txt 
Hi
my
name
is
Yang

一些解释和评论:

  • 打开文件后,我会检查结果以确保fopen成功
  • 当我读取一个 char 时,我不会将其保存在 char 中,而是保存在 int 中,以管理 EOF 的大小写
  • 在上面的代码中,我比较了空格和制表符等,以便让您轻松了解我所做的事情,但是有一个 lib 函数可以完美地完成此操作:isspace 看看它和其他有用的函数(< em>isalpha isdigit ...)。您可以更改相应的行以添加任何其他字符作为分隔符,例如“-”或标点符号(“,”“;”)等

上面的代码只是在输出文件中写入非空格/制表符/换行符,更多的是它只需要检测单词的结尾来添加换行符,这是我的变量 word 的目标 当先前管理的字符不是空格/制表符/换行符时值为 1,否则为 0

关于c - 从字符串中提取单词(单词之间用空格和制表符分隔,可能是多个),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55046239/

相关文章:

c - Flex C 执行文件

python - 如何将字符串转换为嵌套列表,元素以逗号分隔

c - fscanf() 不适用于输入

c - 带 c 的 socket 和 fork

c - 使用 fscanf() 获取格式化输入

c - 预处理器宏字符串化

c - 每行读取一行,并使用 fgets() 和 sscanf() 将字符串评估为坐标

c++ - 在 C++ 中抛出错误时追加一个字符串

r - 从字符串创建嵌套列表结构

java - 在java中增量访问文件,同时动态更新文件?