database - 交叉引用多个多对多关系。我应该选择哪个数据库?

标签 database architecture nosql neo4j google-cloud-datastore

我要为在线内容构建一个平台。 这个系统基本上有两个实体:内容和标签。 标签以多对多的方式与内容相关。

如果我使用 SQL 数据库,它的建模方式如下:

内容 1-----* TC *-----1 标签

鉴于此模型,我需要进行如下查询:

1)通过id获取内容

2)通过一个标签获取内容——“列出所有MATH*内容”

(*) MATH 是一个标签

3)通过多个标签获取内容——“列出所有HARD* MATH*内容”

4) 按内容属性过滤上面的数据:-“列出上周创建的所有 HARD* MATH* 内容”

1 和 2 几乎不是问题,但我相信 3 和 4 会变得棘手。

在关系世界中,对于查询 (4),我可以从 CONTENT 开始并多次加入 TC,如下所示:

select distinct(c.*) from CONTENT c, TC tc1, TC tc2
where tc1.content_id = c.id
and tc2.content_id = c.id
and tc1.id = <math_tag_id>
and tc2.id = <hard_tag_id>
and c.creation_date > <last_week>

但我不确定在以下情况下这是否会很好地扩展: - TC有很多数据 - 我需要查询4到8个标签的交集

对此有什么想法吗?

在 noSQL 世界中,迄今为止我使用的唯一数据库是 BigTable。 据我所知,BigTable 可能不是解决此问题的最佳选择。 如果我使用相同的“表”,对于 (3) 我可能会使用类似的东西(假设 ndb+python)

tcs = TC.query(
    TC.tag_key.IN([math_tag_key, hard_tag_key])
).fetch()
content_keys = [tc.content_key for tc in tcs]
distinct_content_keys = set(content_keys) //eliminate repeated values
contents = ndb.get_multi(distinct_content_keys)

但是,

  • 我不知道当 TC.tag_key.IN 收到 4 到 8 个标签时它的性能如何(对此有什么想法吗?)
  • 我无法进行查询 (4),因为我无法使用 CONTENT 进行连接(BigTable 不进行连接)。另一种方法是在 TC 中复制 CONTENT 的属性,这是一个 PITA。 (在 BigTable 中有更好的方法来做到这一点吗?)

因此,这里更大的问题是:哪种数据库最能解决这个问题? 我倾向于研究图形数据库,看看它们能多好地解决这个问题,但我认为我需要一些专家的意见。

图形数据库真的是可行的方法吗? Neo4J 是最佳选择吗?

最佳答案

与关系数据库相比,图形数据库的优势之一就是您所描述的问题类型。如果关系数据库世界中的答案导致许多连接(其中许多可能依赖于数据库,但可能在 8 时开始成为问题,当然在 16 时开始成为问题)那么您应该查看图形数据库。

除了 Neo4J 之外,您可能还想看看 Titan,无论哪种方式,您可能都想看看您是否想要蓝图或 Spring 之类的东西来帮助您与实现细节隔离开来(尽管如果您这样做可能会带来其他问题确实需要高性能)。

关于database - 交叉引用多个多对多关系。我应该选择哪个数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18895586/

相关文章:

MongoDB 嵌套数组查询

javascript - Firebase - 如何仅在用户 ID 与对象中的键匹配的情况下检索数据?

php - 如何使数据库表字段动态化

mysql - 将默认值更改为mysql中的子查询

architecture - Scrum:架构设计的任务依赖和任务

mysql - 应用架构 MySQL/PHP/Java/AngularJS

architecture - 应用架构考虑因素的延迟数量级

java - 第一次调用一个方法,当数据有变化时再次调用该方法

java - 尝试将 Assets 文件夹中找到的数据库复制到应用程序的数据库文件夹中时遇到的问题

php - Ajax 读取数据库