database - 存储用于数据挖掘的非结构化文本文件的最佳方式是什么

标签 database text cloud

我的机器上有数百万条文本新闻。我想对其进行一些文本挖掘。

我想首先以更结构化的方式存储最文本新闻。最好的方法是什么?这样以后做数据挖掘会更方便。

目前我只是将这些新闻文件存储在由新闻标题和文件路径索引的数据库中。

任何建议将不胜感激。谢谢!

最佳答案

这在很大程度上取决于您希望通过更结构化的数据实现什么。

如果数据量不大,您可以在数据库中使用“文本”搜索,您已经完成了。

在 stackoverflow 上像这里这样的类别或“标签”将极大地帮助对您的内容进行分类和分组,但我想现在很难从您的纯文本库中提取它。

还有一个简单的时间戳(您可以从文件本身获取,但要小心某些系统会在复制文件时更改该日期...)也有帮助。

对于内容提取,请查看 http://www.opencalais.com/ ,它提供了一个您可能会感兴趣的“文本”分析 API。

关于database - 存储用于数据挖掘的非结构化文本文件的最佳方式是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11775666/

相关文章:

mysql - 在不执行的情况下检测mysql错误

php - 在 php 中按升序排列的最后 20 个数据

mysql - 插入带有自动增量列的 MySQL 表

python - 使用 BeautifulSoup 抓取网页链接标题和 URL

python - 防止循环内重复

android - 无法通过 Azure 移动服务发送推送通知

mysql - 云端数据库版本控制

sql-server - 使用外键 - 只有 2 条记录?

python - 操作文本文件: Line deletion if keyword is found

ruby-on-rails - 部署 ruby​​ api 谷歌云