c - 如何计算字典中单词中前两个字母的出现频率？

我有一个 143k 小写单词词典，我想计算前两个字母的频率 (即:aa* = 14、ab* = 534、ac = 714 ...za = 65、 ...zz = 0 )并将其放入二维数组中。

但是，我不知道如何在没有开关或一堆 if else 的情况下迭代它们，我尝试在谷歌上寻找解决方案，但我只能找到计算整个单词中的字母数量，而且大多只是东西在Python中。

我坐在这里思考了一段时间，思考如何才能做到这一点，但我的大脑一直在阻止这就是我想到的，但我真的不知道该去哪里。

int main (void) {
    char *line = NULL;
    size_t len = 0;
    ssize_t read;
    char *arr[143091];
    
    FILE *fp = fopen("large", “r”);
    if (*fp == NULL)
    {
        return 1;
    }
    
    int i = 0;
    while ((read = getline(&line, &len, fp)) != -1)
    {
        arr[i] = line;
        i++;
    }
    
    char c1 = 'a';
    char c2 = 'a';
    i = 0;
    int j = 0;
    while (c1 <= 'z')
    {
        while (arr[k][0] == c1)
        {
            while (arr[k][1] == c2)
            {
                
            }
            c2++;
        }
        c1++;
    }
    fclose(fp);
    if (line)
        free(line);
    return 0;
}

我是个白痴还是我只是错过了一些非常基本的东西？我该如何解决这个问题？

编辑:我忘了提及字典只是小写，并且有一些边缘情况，例如 a 或 e 并且某些单词有 ' (如 e'er 和 e's)没有重音拉丁字符，它们都是 accii 小写

最佳答案

该代码假定输入每行一个单词且没有前导空格，并且将计算从 'a' 开始以两个 ASCII 字母开头的所有单词。 ..'z' 。由于问题中的陈述不完全清楚，我进一步假设字符编码是 ASCII 或至少与 ASCII 兼容。 (问题指出:“没有重音拉丁字符，它们都是 accii 小写”)

如果您想要包含仅由一个字母组成的单词或包含 ' 的单词，根据字符计算索引值会稍微复杂一些。在这种情况下，我将添加一个函数来根据字符值计算索引。同样，对于非 ASCII 字母，数组索引的简单计算将不起作用。

程序逐行读取输入而不存储所有行，检查上面定义的输入并转换范围 'a' 中的前两个字符。 ..'z'索引 0 范围内的值..'z'-'a'计算二维数组中的出现次数。

#include <stdio.h>
#include <stdlib.h>

int main (void) {
    char *line = NULL;
    size_t len = 0;
    ssize_t read;

    /* Counter array, initialized with 0. The highest possible index will 
     * be 'z'-'a', so the size in each dimension is 1 more */
    unsigned long count['z'-'a'+1]['z'-'a'+1] = {0};
    
    FILE *fp = fopen("large", "r");
    if (fp == NULL)
    {
        return 1;
    }
    
    while ((read = getline(&line, &len, fp)) != -1)
    {
        /* ignore short input */
        if(read >= 2)
        {
            /* ignore other characters */
            if((line[0] >= 'a') && (line[0] <= 'z') &&
               (line[1] >= 'a') && (line[1] <= 'z'))
            {
                /* convert first 2 characters to array index range and count */
                count[line[0]-'a'][line[1]-'a']++;
            }
        }
    }
    
    fclose(fp);
    if (line)
        free(line);

    /* example output */
    for(int i = 'a'-'a'; i <= 'z'-'a'; i++)
    {
        for(int j = 'a'-'a'; j <= 'z'-'a'; j++)
        {
            /* only print combinations that actually occurred */
            if(count[i][j] > 0)
            {
                printf("%c%c %lu\n", i+'a', j+'a', count[i][j]);
            }
        }
    }

    return 0;
}

示例输入

foo
a
foobar
bar
baz
fish
ford

结果

ba 2
fi 1
fo 3

关于c - 如何计算字典中单词中前两个字母的出现频率？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68564322/

c - 如何计算字典中单词中前两个字母的出现频率？

上一篇：css - 如何动态更改数组中显示的样式文本组件的属性？

下一篇：svelte - 带有 Sveltekit : no "swiping" 的 Swiper