database - 存储用于数据挖掘的非结构化文本文件的最佳方式是什么

我的机器上有数百万条文本新闻。我想对其进行一些文本挖掘。

我想首先以更结构化的方式存储最文本新闻。最好的方法是什么？这样以后做数据挖掘会更方便。

目前我只是将这些新闻文件存储在由新闻标题和文件路径索引的数据库中。

任何建议将不胜感激。谢谢!

最佳答案

这在很大程度上取决于您希望通过更结构化的数据实现什么。

如果数据量不大，您可以在数据库中使用“文本”搜索，您已经完成了。

在 stackoverflow 上像这里这样的类别或“标签”将极大地帮助对您的内容进行分类和分组，但我想现在很难从您的纯文本库中提取它。

还有一个简单的时间戳(您可以从文件本身获取，但要小心某些系统会在复制文件时更改该日期...)也有帮助。

对于内容提取，请查看 http://www.opencalais.com/ ，它提供了一个您可能会感兴趣的“文本”分析 API。

关于database - 存储用于数据挖掘的非结构化文本文件的最佳方式是什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11775666/

相关文章：

mysql - 在不执行的情况下检测mysql错误