r - 使用 SPADE 解释序列挖掘的结果

请帮忙解读一下SPADE频繁序列挖掘算法的结果(http://www.inside-r.org/packages/cran/arulesSequences/docs/cspade )

支持 = 0.05:

s1 <- cspade(x, parameter = list(support = 0.05), control = list(verbose = TRUE))

例如，我得到这些序列:

4          <{C},{V}> 0.15644023
5            <{C,V}> 0.73127376

看起来这些是相同的序列，不是吗？ <{C},{V}> 在语义上与 <{C,V}> 有何不同？有没有现实生活中的例子？

来自 Spade 论文(M. J. Zaki. (2001). SPADE: An Efficient Algorithm for Mining Frequent Sequences. Machine Learning Journal, 42, 31--60):

“一个输入序列 C 被称为包含另一个序列 A，如果 A 是一个输入序列 C 的子序列。序列的支持度或频率是数据库 D 中包含 A 的输入序列的总数。"

然后，例如，如果:

            sequence    support
1              <{C}> 1.00000000

这是否意味着序列 <{C}> 包含在数据库 D 中的所有序列中，正确吗？

我从数据中获得的完整输出:

> as(s1, "data.frame")
            sequence    support
1              <{C}> 1.00000000
2              <{L}> 0.20468120
3              <{V}> 0.73127376
4          <{C},{V}> 0.15644023
5            <{C,V}> 0.73127376
6            <{L,V}> 0.07882027
7          <{V},{V}> 0.13343431
8        <{C,V},{V}> 0.13343431
9      <{C},{C},{V}> 0.05558572
10         <{C,L,V}> 0.07882027
11       <{V},{C,V}> 0.13343431
12       <{C},{C,V}> 0.15644023
13     <{C,V},{C,V}> 0.13343431
14   <{C},{C},{C,V}> 0.05558572
15         <{C},{L}> 0.05738619
16           <{C,L}> 0.20468120
17       <{C},{C,L}> 0.05738619
18         <{C},{C}> 0.22128547
19         <{L},{C}> 0.06233031
20         <{V},{C}> 0.16921494
21     <{V},{V},{C}> 0.05047012
22     <{V},{C},{C}> 0.06233031
23       <{C,V},{C}> 0.16921494
24     <{C},{V},{C}> 0.05781487
25   <{C,V},{V},{C}> 0.05047012
26   <{V},{C,V},{C}> 0.05047012
27   <{C},{C,V},{C}> 0.05781487
28 <{C,V},{C,V},{C}> 0.05047012
29       <{C,L},{C}> 0.06233031
30     <{C},{C},{C}> 0.07882027
31   <{C,V},{C},{C}> 0.06233031
> summary(s1)
set of 31 sequences with

most frequent items:
      C       V       L (Other) 
     27      22       8       8 

most frequent elements:
    {C}     {V}   {C,V}     {L}   {C,L} (Other) 
     21      12      12       3       3       2 

element (sequence) size distribution:
sizes
 1  2  3 
 7 13 11 

sequence length distribution:
lengths
 1  2  3  4  5 
 3  9 12  6  1 

summary of quality measures:
    support       
 Min.   :0.05047  
 1st Qu.:0.05760  
 Median :0.07882  
 Mean   :0.17121  
 3rd Qu.:0.16283  
 Max.   :1.00000  

includes transaction ID lists: FALSE 

mining info:
 data ntransactions nsequences support
    x         61000      34991    0.05
>

最佳答案

当使用 SPADE 算法时，请记住您也在处理时间数据(即您可以知道项目出现的顺序或时间)。

Looks like these are the same sequences, aren't they? How <{C},{V}> semantically differs from <{C,V}> ? Any real life examples?

在您的示例中，<{C}, {V}> 表示项目 C 先出现，然后是项目 V； <{C, V}> 表示项目 C 和 V 同时发生。

Then, for example, if:
            sequence    support
1              <{C}> 1.00000000
Does it mean that sequence <{C}> is contained in all sequences in database D, correct?

支持值为 1 的项目表示它发生在所有交易中(在购物篮分析示例中)。

希望这对您有所帮助。

关于r - 使用 SPADE 解释序列挖掘的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35923411/

r - 使用 SPADE 解释序列挖掘的结果

上一篇：algorithm - 如何将过程算法转换为逻辑程序？

下一篇：algorithm - 每对等长集的最大基数交集