php - 奇怪的数据库设计，需要指导

我可能在想这个问题，但这里是。

计算机开始在 11111111111111111111 和 99999999999999999999 之间连续吐出大量随机数:

有时计算机会在行的一端添加一个数字。
有时计算机会在线路的另一端添加一个数字。
每个数字都有一个之前出现或即将出现的数字。
每个数字后面都有一个数字，或将在其后。
并非所有数字都是唯一的，很多(但不是大多数)是重复的。
计算机永远不会停止吐出数字。

当我记录所有这些数字时，我需要能够在任何给定时间做出有根据的猜测:

如果这是我第二次看到一个数字，我必须知道上次排在它前面的是什么数字。
如果它出现了两次以上，我必须知道它前面数字的概率/频率。
如果这是我第二次看到一个数字，我一定也知道上次排在它后面的是什么数字。
如果它出现了两次以上，我必须知道它后面出现数字的概率/频率。

我到底要如何构建 MySQL 数据库中的表来存储所有这些数字？我使用哪种引擎，为什么？我如何制定我的查询？我需要快速了解，但容量也很重要，因为什么时候才会停止吐出它们？

我考虑不周的计划:

2 个表:

1. Unique ID/#
2. #/ID/#

我的想法:

唯一 ID 几乎总是比数字更短 = 更快匹配。数字重复 = 更少的 ID 行 = 更快的初始匹配。

Select * in table2 where id=(select id in table1 where #=?)

或者:

3 表:

1. Unique ID/#
2. #/ID
3. ID/#

我的想法:

如果我只需要左/前，或者只需要后/右，我会缩小第二个查询的大小。

SELECT # IN table2(or 3) WHERE id=(SELECT id IN table1 WHERE #=?)

或

1 表:

1. #/#/#

想法:

更少的查询 = 更少的时间。

SELECT * IN table WHERE col2=#.

我迷路了.... :( 每个数字都有四个属性，一个在+频率之前，一个在+频率之后。

我这样想会更好吗？如果我在表中存储和增加频率，我就可以避免重复，从而加快我的查询速度？我最初在想，如果我存储每一个事件，以编程方式计算频率会更快......

如此简单的数据，但我只是不了解数据库的工作原理，不知道哪个更有效。

根据最近的评论，我想补充一些关于实际问题的信息:我有一个无限长的字符串。我正在尝试在此字符串中存储各种字符或字符 block 的马尔可夫链频率表。

给定字符串中的任意一点，我需要知道下一个状态的概率和前一个状态的概率。

我正在根据文本语料库和过去的用户输入来预测用户输入。与我见过的其他应用程序相比，一个主要区别是我在给定的时间沿着链条走得更远，更多的状态，我需要频率数据来提供多种可能性。

我希望这能更清楚地说明情况。我不想深入问题的本质，因为过去我提出的问题不够具体，无法得到具体的答案。

这似乎更好一些。我对这个解决方案的主要问题是:提供“ key ”(状态的前几个字符)会提高系统速度吗？即查询 state_key，然后仅查询该查询的完整状态的结果？

Table 1:
name: state
col1:state_id - unique, auto incrementing
col2:state_key - the first X characters of the state
col3:state - fixed length string or state

Table 2:
name: occurence
col1:state_id_left - non unique key from table 1
col2:state_id_right - non unique key from table 1
col3:frequency - int, incremented every time the two states occur next to each other.

QUERY TO FIND PREVIOUS STATES:
SELECT * IN occurence WHERE state_id_right=(SELECT state_id IN state WHERE state_key=? AND state=?)

QUERY TO FIND NEXT STATES:
SELECT * IN occurence WHERE state_id_left=(SELECT state_id IN state WHERE state_key=? AND state=?)

最佳答案

我不熟悉马尔可夫链，但这里尝试回答这个问题。注意:为了简化事情，我们将每个数字串称为“状态”。

首先我想象这样一张 table

Table states:
order : integer autonumeric (add an index here)
state_id : integer (add an index here)
state : varchar (?)

顺序:只需使用序号 (1,2,3,...,n) 这将使搜索上一个或下一个状态变得容易。

state_id:与州相关联的唯一编号。例如，您可以使用数字 1 来表示状态“1111111111...1”(无论序列的长度是多少)。重要的是状态的再次出现需要使用与之前使用的相同的 state_id。您可以根据字符串(可能减去一个数字)来制定 state_id。当然，只有当可能状态的数量适合 MySQL int 字段时，state_id 才有意义。

state:这是数字字符串 '11111111...1' 到 '99999999...9' ...我猜这只能存储为字符串，但如果它适合整数/数字专栏您应该尝试一下，因为您可能不需要 state_id

state_id 的要点是搜索数字比搜索文本更快，但在性能方面总是需要权衡取舍……剖析并确定瓶颈以做出更好的设计决策。

那么，您如何查找先前出现的状态 S_i ？

"SELECT order, state_id, state FROM states WHERE state_id = "然后附加 get_state_id(S_i) 其中 get_state_id 理想情况下使用公式为状态生成唯一的 ID。

现在，使用 order - 1 或 order + 1，您可以访问邻近的州并发出额外的查询。

接下来我们需要跟踪不同出现的频率。您可以在另一个表中执行此操作，该表可能如下所示:

Table state_frequencies:
state_id integer (indexed)
occurrences integer

并且只有在获得数字时才添加记录。

最后，您可以使用表格来跟踪邻近州的频率:

Table prev_state_frequencies (next_state_frequencies is the same):
state_id: integer (indexed)
prev_state_id: integer (indexed)
occurrences: integer

您将能够通过查看一个状态的出现次数(在 state_frequencies 中)与其前一个状态的出现次数(在 prev_state_frequencies 中)来推断概率(我想这就是您要尝试做的)。

我不确定我是否答对了你的问题，但如果这说得通，我想我答对了。

希望对你有帮助啊

关于php - 奇怪的数据库设计，需要指导，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14002434/

php - 奇怪的数据库设计，需要指导

上一篇：PHP 在连接到 MySql 时忽略 ssl 证书

下一篇：Java 使用 SSL 进行数据库连接