python - 表格中的文字?

标签 python sql database datatable

我喜欢在“表格”中组织大量来自文献综述的信息(信息与产品比较不同,但用于科学研究),但通常我输入的信息可能包含文本行或段落,并且在电子表格中变得笨拙.我听说 SQL 关系表经常用于此目的;对于数据分析,我使用 Python 或 R 从平面文本文件中解析数据并将其输入到 SQLite 中。我应该只创建一个“标记”文本文件并做同样的事情吗?我想知道人们使用什么界面来输入和查看此类文本密集的表格?或者我想知道是否有其他软件可能适合此目的。

最佳答案

您存储和检索数据的方式取决于您打算用它做什么。

文本文件在可管理性方面存在问题。您无法真正处理包含成千上万个文件的目录树。搜索它们将是一场噩梦。如果您同时更新,您将不得不处理锁和一系列其他问题。它们并不是真正用于存储您要挖掘的大量数据。

关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系并将结果数据放入表中,这样才有意义。将所有文本(经过一些预处理后)转储到单个列中不会很有用。我所说的结果是 SQL 数据库存储可以使用结构查询的“结构化”数据。

您可能会考虑的另一个想法是使用文档数据库。那里有很多,虽然我没有个人经验,但我听过有关 CouchDB 的介绍。它将信息存储为 JSON 文档。您使用可以根据某些条件排序的脚本来挖掘数据,然后取回排序后的文档。如果您要处理大量文本数据,那么这绝对值得一试。坊间传言,这些引擎的可扩展性远高于相关引擎。

关于python - 表格中的文字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2034330/

相关文章:

mysql更新另一列为主键值

php - 我正在努力处理我的数据库和查询

javascript - Python Selenium 屏蔽字段

python - 在 double 中强制 Python 计算

python - 在系统启动时打开Python程序

sql - 如何将后端数据(变量)显示到前端页面

python - 从系列中选择一项并保留索引

sql - 无法绑定(bind)多部分标识符 - 子查询

php - 如何检查网站是否正常运行并长期存储结果

php - PHP提交表单数据到mysql时出现空白页