c - 从c中的const数组中删除重复项

我必须使用以下签名在 C 中实现一个函数:int *unici(const int *vec, size_t size, size_t *newsize)，其中 vec是int的const数组，size是数组的大小，*newsize 是没有重复的新数组的大小。

此函数必须在堆上创建一个新数组，并将 vec 中的值无重复地放入数组中。

示例:如果 vec 是 [2, 4, 5, 4, 5, 5, 7, 9]，size 是 8，则新数组应为 [2, 4, 5, 7, 9] 且 *newsize 等于 5.

我尝试实现它，但我不知道如何删除重复项并放入新数组。

int cmpfunc(const void * a, const void * b) 
{
    return (*(int*)a - *(int*)b);
}

int *unici(const int *vec, size_t size, size_t *newsize)
{
    if (size == 0)
        return NULL;

    qsort(vec, size, sizeof(int), cmpfunc);

    size_t count = 0;

    for (size_t i = 0; i < size; i++)
    {
        //finding for duplicates 
        if (vec[i] == vec[i + 1])
            count++;
    }

    *newsize = size - count;
    int *tmp = malloc(*newsize * sizeof(int));

    //now I've to put in tmp values from vec without duplicates
}

编辑:这是我的解决方案，我想通了，顺便说一句，谢谢大家!

int *unici(const int *vec, size_t size, size_t *newsize)
{
    if (size == 0)
        return NULL;

    int *tmp = malloc(size * sizeof(int));

    for (size_t i = 0; i < size; i++)
    {
        tmp[i] = vec[i];
    }

    for (size_t i = 0; i < size; i++)
    {
        for (size_t j = i + 1; j < size; j++)
        {
            if (tmp[i] == tmp[j])
            {
                for (size_t k = j; k<size; k++)
                {
                    tmp[k] = tmp[k + 1];
                }
                size--;
                j--;
            }
        }
    }

    *newsize = size;
    return tmp;

}

最佳答案

有两种基本方法。

复制原始数组。对新数组中的元素进行排序，并使用循环仅保留任何运行中的第一个(多个相同值):

int   *result; /* This is the duplicate array; sorted */
size_t i = 0;  /* Loop index */
size_t n = 0;  /* Unique elements in the duplicate array */

while (i < size) {
    const int  c = result[i++];

    /* Skip if there are more than one consecutive c */
    while (i < size && c == result[i])
        i++;

    /* Copy the unique elements back to the beginning
       of the array. */
    result[n++] = c;
}

如果需要，您可以将 result 重新分配给 n * sizeof result[0] 字节。

将唯一元素的个数n存入*newsize，并返回result。

分配结果数组，但先不要复制这些值。不要排序(使重复值连续)，而是使用双循环来检查每个值是否唯一(已经在结果数组中)，并且只将唯一的值复制到结果数组:

int   *result; /* Allocated for 'size' elements */
size_t i, j;   /* Loop indexes */
size_t n = 0;  /* Unique elements in the duplicate array */

for (i = 0; i < size; i++) {

    /* Find first duplicate in result. */
    for (j = 0; j < n; j++)
        if (result[j] == vec[i])
            break;

    /* If no duplicates found, add to result. */
    if (j >= n)
        result[n++] = vec[i];
}

如果需要，您可以将 result 重新分配给 n * sizeof result[0] 字节。

将唯一元素的个数n存入*newsize，并返回result。

哪种方法更好，取决于result 集的使用方式，以及按排序顺序是否有用。如果排序顺序有用，或者如果速度很重要而顺序无关紧要，则排序方法可能更好。

(排序方法的效率取决于排序函数的效率。已知许多排序函数具有 O(size × log size) 时间复杂度；对于真正庞大的数据量, 可以使用 O(size) 基数排序(因为值的数量是事先已知的)。请注意，基数排序只会在非常大的size 时击败其他排序s，通常以百万计。)

在某些情况下，result 集与 vec 的顺序相同可能很重要，但要删除重复项。那么，第二种方法是显而易见的选择。它的时间复杂度是O(size × n)，这意味着它会随着数组和唯一元素集合的增大而变慢。

关于c - 从c中的const数组中删除重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48035173/

c - 从c中的const数组中删除重复项

上一篇：c - printf() 的返回值会发生什么变化？

下一篇：在C中将int转换为ASCII字符