c++ - 如果同一数据位于不同的数据结构中,则维护它们的两个拷贝是否是一种不好的做法?

标签 c++ performance data-structures

假设我有一组通用的索引对象U,以及这些对象的子集SS 很大(例如,1,000,000 个元素),但是 U 大得多(例如,至少 100,000,000 个元素)。

我想对这些集合执行两个基本操作:

(1) 给定从 0 到 U 的大小减 1 的任何整数 x,检查 S 的成员资格,如果不是成员,然后将x添加到S,和

(2) 从S中选择(并移除)一个随机元素。

为了执行操作 (1) 的第一部分,我认为保留一个大小为 U 的 bool vector v 是有意义的,其中值为true 如果元素 x 是集合 S 的成员。

但是,因为US大很多,所以在v中随机选择一个元素,希望它也是S中的一个元素S 没有意义。如果 US 大 100 倍,那么它只会找到 S 的一个元素,平均每 100 次尝试一次。

因此,为了执行第二个操作,维护 S 中元素的索引列表并从中选择一个随机元素是有意义的。

现在唯一的问题是,现在有相同数据的两个拷贝,并且每个操作都需要分别更新它们。这是第一个操作的伪代码:

** operation 1 - check membership and add **
input: boolean vector, v
       integer vector, S
       integer, x

if v[x] is not true:
    v[x] = true
    append x to S
return

这相对简单,但它必须更新索引 vector ,即使它没有使用它。这是第二个操作:

** operation 2 - select and remove random element of S **
input: boolean vector, v
       integer vector, S

generate random integer x between 0 and size of S
set v[S[x]] to false
remove S[x] from S
return

维护数据的两个拷贝使这两个操作变得更加复杂,因为每个操作都必须更新两个数据结构,即使它只需要一个。这是不好的做法吗?

我能想到的唯一选择是使用一个或另一个。但这使得一个操作更简单,但另一个更复杂。例如(只给出比较复杂的):

** operation 1 - check membership and add**
input: integer vector, S
       integer, x

iterate over S
if x in S:
    return
else:
    append x to S
    return

所以每次,它都必须遍历整个 S,而不是单个查找,并且

** operation 2 - select and remove random element of S **
input: boolean vector, v

while true:
    generate random integer x between 0 and size of S
    if v[x] true:
        v[x] = false
        return

这两个看起来都非常低效,特别是如果 US 的大小很大,并且 U 之间的差异>S 也很大。有没有一种方法可以仅使用一种数据结构来高效地执行这两种操作?或者维护同一事物的两个拷贝真的不是什么大问题吗?

编辑:

我正在编写的代码是用 c++ 编写的,所以我想我是在特别询问 c++ 数据结构,但这个问题并不是真正特定于语言的。

最佳答案

我认为这 3 种方法都没有(主要)问题。在决定选择其中之一时,您必须考虑:

  • 代码可读性
  • 代码可维护性
  • 表现

代码可读性

理解代码的作用是多么容易和直观。代码不应有任何令人惊讶的行为。

如果使用良好的命名和干净的结构化代码,这三者都可以相本地具有同等的可读性。

代码可维护性

调试、测试、扩展代码有多容易。

具有两个结构的变体成本略高。但只是轻微的。与其他的相比,我没有看到更多的复杂性。您可以在单元测试中进行测试以检查方案的完整性。 IE。检查 bool vector 和整数 vector 是否同意 S 是什么。

性能

您可能整天都在假设什么变体以及变体的速度有多快,但归根结底,如果没有实际的分析,任何关于性能的讨论都是毫无意义的。如果性能对您来说是一个重要因素,那么实现所有 3 种方法并测量它们的实际性能。

关于c++ - 如果同一数据位于不同的数据结构中,则维护它们的两个拷贝是否是一种不好的做法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47153546/

相关文章:

c - 如何解决涉及重叠对的问题以及使用哪种数据结构

c++ - Visual Studio 生成的浏览信息的用途是什么

c++ - 无法将大小 QMainWindow 设置为小于 200x100 像素

Windows 系统空闲进程干扰性能测量

java - 循环性能差但顺序执行速度快

wpf - 我可以在 CompositionTarget.Rendering 中做什么?

c++ - 如何在 CMake 目标上请求 C++11 或更高版本?

c++ - 编译自定义 tf 操作,其中输入为 5d 张量

python - Python中的二叉树层次顺序遍历

algorithm - 您可以通过几种方式在BST中插入一系列值以形成特定的树?