<分区>
我一直想学习 python 和做一些 NLP,所以终于开始了。下载了英文维基百科镜像,开始了一个不错的大块数据集,并且一直在玩,在这个阶段只是将其中的一些放入 sqlite 数据库中(过去没有使用过数据库)。
但我猜 sqlite 不是一个完整的 nlp 项目的方法(/实验 :) - 我应该看看什么样的东西? HBase(.. 和 hadoop)看起来很有趣,我想我可以运行 im java,python 中的原型(prototype),并且可能将真正慢的位迁移到 java... 或者只运行 Mysql.. 但数据集是 12gb,我想知道是否会有问题吗?还查看了 lucene,但不确定如何(除了将 wiki 文章分成 block 之外)我会让它工作..
想到一个真正灵活的 NLP 平台(在这个阶段我真的不知道我想做什么..只想学习大规模语言分析 tbh)?
非常感谢。