mysql - 存储大型 session 级数据集?

标签 mysql database database-design web-applications search

我正在构建一个由执行以下操作的用户组成的网络应用程序:

  1. 浏览和搜索包含数百万条目的 Solr 服务器。 (应用程序的这一部分运行得非常好。)

  2. 选择该数据的一个特权部分(某些特定搜索的结果),并将其临时保存为“数据集”。 (我希望将数据集大小限制在非常的范围内,例如 50 万个结果。)

  3. 对该数据集执行一些杂项操作。

(前端内置在 Rails 中,但我怀疑这与解决这个特定问题的方式是否真的相关。)

第二步,以及如何检索第三步的数据,是给我带来麻烦的地方。我需要能够临时保存数据集,在需要时恢复它们,并在一段时间后使它们过期。问题是,我的结果有 SHA1 校验和 ID,所以每个 ID 都是 48 个字符。一个 500,000 条记录的数据集,即使我只存储 ID,也是 22 MB 的数据。所以我不能只有一个数据库表,然后在其中为用户构建的每个数据集添加一行。

以前有人需要这样的东西吗?解决这个问题的最佳方法是什么?我应该为用户构建的每个数据集生成一个单独的表吗?如果是这样,一段时间后过期/删除这些表的最佳方法是什么?如果需要,我可以部署一个 MySQL 服务器(虽然我还没有启动,所有数据都在 Solr 中),如果其他东西符合要求,我也愿意使用一些更疯狂的软件。

编辑:一些更详细的信息,以回应下面的 Jeff Ferland。

数据对象是不可变的、静态的,并且完全驻留在 Solr 数据库中。它可能作为文件更有效率,但我更愿意(出于搜索和浏览的原因)将它们保留在原处。数据和数据集都不需要分布在多个系统中,我不认为我们会得到那种负载。现在,整个该死的东西都在单个 VM 中运行(如果我到达那里,我可以跨过那座桥)。

所谓“在需要时恢复”,我的意思是这样的:用户运行精心设计的搜索查询,结果为他们提供了一些对象集。然后他们决定要操纵该集合。当他们(作为一个随机示例)单击“按年绘制这些对象的图表”按钮时,我需要能够检索完整的对象 ID 集,以便将它们带回 Solr 服务器并运行更多查询。我宁愿存储对象 ID(而不是搜索查询),因为随着我们添加更多对象,结果集可能会在用户下发生变化。

“while”大致是用户 session 的长度。不过,有一个复杂的问题可能很重要:我可能最终需要实现一个作业队列,以便我可以推迟处理,在这种情况下,“while”需要“只要它处理你的作业所需的时间”。

感谢 Jeff 督促我提供正确的详细信息。

最佳答案

第一个技巧:不要将 SHA1 表示为文本,而是表示它占用的 20 个字节。您看到的十六进制值是一种以人类可读形式显示字节的方式。如果正确存储它们,大小为 9.5MB 而不是 22MB。

其次,您还没有真正解释您所做工作的性质。您保存的数据集是否引用了现有数据库中的不可变对象(immutable对象)?在需要时恢复它们是什么意思?当你谈论到期时,“一段时间”是多长时间?您引用的基础数据是静态的还是动态的?您可以保存搜索模式和偏移量,还是需要保存个人引用?

是否需要将与 session 相关的数据插入到数据库中?它在文件中可能更有效率吗?是否需要分布在多个系统中?

我的回答还有很多问题。为此,您需要更好地表达甚至定义超出您提供的技术概述的要求。


更新:对此有许多可能的解决方案。这里有两个:

  • 将这些写入具有递增搜索 ID 的单个表(saved_searches 等)。按排序顺序插入 key 的奖励积分。 (search_id unsigned bigint, item_id char(20), primary key (search_id, item_id)。这将真正限制碎片,保持每个搜索聚集,并按大致顺序释放页面。它几乎是一个滚动表,这就是关于进行大量插入和删除的最佳情况。在这种情况下,您需要为插入付出代价,为删除付出双倍的代价。您还必须迭代整个搜索结果。
  • 如果您的搜索项具有递增的主 ID,这样任何新插入到数据库中的值都将高于数据库中已有的任何值,这是最有效的。或者,插入日期戳会以较低的效率实现相同的效果(实际上必须在查询中检查每一行,而不仅仅是索引条目)。如果您记下该最大 ID,并且不删除记录,那么您可以通过始终为已保存的查询设置最大 ID 来保存使用零空间的搜索。

关于mysql - 存储大型 session 级数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7296466/

相关文章:

sql - 地理位置 SQL 查询找不到确切位置

java - 如何减去从 jtextfield 到 mysql 数据库的输入?

MySQL View - 性能不佳

java - 数据库无法以html格式存储

database - 对于我创建的新创建的 PostgreSQL 模式,我应该使用什么正确的文件扩展名?

.net - Fluent NHibernate - 仅当不存在时才创建数据库模式

mysql - 在第一个表的字段或第二个表的字段中使用 WHERE 进行左连接

ruby-on-rails - 动态数据的数据库设计

android - 如何为存储订单详细信息的关系数据库建模?

MySQL 类别表结构