java - 入门NLP——Python+大数据集

标签 java python database nlp

<分区>

我一直想学习 python 和做一些 NLP,所以终于开始了。下载了英文维基百科镜像,开始了一个不错的大块数据集,并且一直在玩,在这个阶段只是将其中的一些放入 sqlite 数据库中(过去没有使用过数据库)。

但我猜 sqlite 不是一个完整的 nlp 项目的方法(/实验 :) - 我应该看看什么样的东西? HBase(.. 和 hadoop)看起来很有趣,我想我可以运行 im java,python 中的原型(prototype),并且可能将真正慢的位迁移到 java... 或者只运行 Mysql.. 但数据集是 12gb,我想知道是否会有问题吗?还查看了 lucene,但不确定如何(除了将 wiki 文章分成 block 之外)我会让它工作..

想到一个真正灵活的 NLP 平台(在这个阶段我真的不知道我想做什么..只想学习大规模语言分析 tbh)?

非常感谢。

最佳答案

NLTK是您应该从哪里开始(它是基于 Python 的——不确定为什么您已经在这么早的阶段考虑并行处理……我的建议是从更灵活的实验设置开始)。 sqlite 对于几 GB 应该没问题——如果您需要更高级和标准的 SQL 功能,您可以考虑 postgresql .

关于java - 入门NLP——Python+大数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2572205/

相关文章:

mysql 多表/多模式性能

javascript - ExtJS 从多个代理源填充存储

java - 从特定的 jar 文件中引用一个类

java - Java中传入一个运算符

java - 使用 KeyStore.getEntry() 时出现 UnsupportedOperationException?

python - 对图像执行 OCR 时,Tesseract 返回乱码

python - 关于在 Python 中访问 Gekko 数组索引的问题

python - Pandas 数据框的最大大小

sql - 如何实现一个 "Is Current"需求的一对多关系

java - 在 Android 上确定 SD 卡上目录大小的最快方法