algorithm - 动态文本模式检测算法?

标签 algorithm text nlp machine-learning data-modeling

<分区>

我想知道是否存在这样的算法。我有一堆文本文档,如果存在模式,我想在所有这些文档中找到一个模式。请注意,我并不是要对文档进行分类,我只想找到一种模式,如果它存在于某些文档中的话。谢谢!

最佳答案

现在的问题有点模糊..你有点需要知道你在找什么才能找到它。
一些可能有用的想法-

  1. 分别为 n = 1、2、3、4 获取每个文档的 n-gram 计数,然后比较文档中每个 ngram 的频率。这应该可以帮助您找到所有文档中经常出现的短语。
  2. 获取词性标注器以将所有文档转换为 POS 标记流,然后执行与 1 相同的操作
  3. 使用 Stanford Parser 等 PCFG 软件获取所有文档中所有句子的解析树,然后尝试找出不同文档的句子结构分布的相似程度。

关于algorithm - 动态文本模式检测算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7656445/

相关文章:

nlp - 有人类可读的编程语言吗?

algorithm - 设计数据结构就像改进堆栈一样

java - 在 Eclipse 中重新训练 stanford NLP pos tagger

algorithm - 以函数最小化为任务的快速算法的基准

sql - Postgresql:文本/varchar 的行内与行外

Python 程序在读取文本文件时打印一个额外的空行

c# - 在 Windows 中的任意位置插入文本。 (如自动图文集/智能感知)

python - 如何更快地计算 nltk plaintextcorpus 中的单词?

不同复杂度的算法

algorithm - 实现 HexQ 算法