python - 获得可视化/分析大型数据集的基本技能

标签 python dataset visualization data-visualization

<分区>

我正在寻找一种方法来学习适应大型数据集。我是一名大学生,所以我所做的一切都是“不错”的规模和复杂性。本学期与一位教授一起开展研究项目,我不得不可视化一个(以我的经验)较大的数据集之间的关系。这是一个 15 MB 的 CSV 文件。

我的大部分数据处理都是用 Python 编写的,使用 GNUPlot 进行可视化。

是否有任何关于该主题的可访问书籍或网站?使用 Python 的加分,比依赖 gnuplot 更“基本”的可视化系统的加分更多。开罗之类的,我想。

寻找能让我从数据挖掘到处理再到可视化的东西。

编辑:我更想寻找能教会我“大创意”的东西。我可以自己编写代码,但要寻找人们用来处理大型数据集的技术。我的意思是,我的 15 MB 足够小,我可以将我需要的所有内容放入内存并开始处理。人们如何可视化 5 GB 数据集?

最佳答案

我想说最基本的技能是良好的数学和统计学基础。这可以帮助 您评估并从各种过滤数据的技术中挑选,以及 在保持其完整性的同时减少其体积和维度。最后 你想做的是做一些漂亮的东西来显示图案或 不存在的关系。

专业数学

要解决某些类型的问题,您需要学习一些数学知识,以了解特定算法的工作原理以及它们会对您的数据产生什么影响。聚类数据有多种算法,降维,自然 语言处理等。您可能永远不会使用其中的许多,具体取决于您希望分析的数据类型,但是 Internet 上有丰富的资源 (和 Stack Exchange 站点)如果您需要帮助。

有关数据挖掘技术的介绍性概述,Witten 的 Data Mining很好。我有第 1 版,它用通俗易懂的语言解释了一些概念,并加入了一些数学知识。我推荐它是因为它提供了一个很好的概述,而且价格也不太贵——当你对该领域进行更多的阅读时,你会注意到很多这些书很贵。唯一的缺点是许多页面专门使用 WEKA,一个 Java 数据挖掘包,当您使用 Python 时它可能不太有用(但它是开源的,因此您可以从源代码中收集一些想法. 我还发现 Introduction to Machine Learning 提供了一个很好的概述,价格也很合理,还有更多的数学知识。

工具

为了在一台机器上创建您自己的发明的可视化,我认为基础知识应该让您入门:Python,Numpy , Scipy , Matplotlib , 和一个 你有经验的好图形库,比如PIL或者 Pycairo .有了这些,您可以处理数字,将它们绘制在图表上,并通过自定义绘图例程进行美化。

当您想要创建移动的、交互式的可视化效果时,像 基于 Java Processing库使这变得容易。那里 甚至是编写处理草图的方法in Python通过 Jython,以防您不想编写 Java。

如果您需要,还有更多工具,例如 OpenCV (computer vision, machine learning) , Orange (data mining, analysis, viz) , 和 NLTK (natural language, text analysis) .

呈现原则和技巧

该领域人士的书籍,如 Edward Tufte和引用像 Information Graphics 可以帮助您很好地了解创建可视化的方法和 有效地展示它们。

查找 Viz 示例的资源

类似 Flowing Data 的网站, Infosthetics , Visual ComplexityInformation is Beautiful显示最近的,有趣的 来自网络的可视化。也可以翻看many compiled listsvisualization sites在互联网上。从这些作为种子开始并开始浏览,我相信您会发现很多有用的站点和鼓舞人心的示例。

(这原本是一个评论,但变得太长了)

关于python - 获得可视化/分析大型数据集的基本技能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5890935/

相关文章:

dataset - 从 IMDB 中提取评论和评分

c# - 从 DataSet 中获取列的所有值

r - 绘制 lm 预测值

python - 将 Pandas 数据帧转为具有多层的长格式

python - 稍后重写的导入标识符的未解析引用

.net - 如何判断DataRow中是否存在某列?

javascript - 使用d3可视化速射 'clicks'

r - 使用具有重复 y 因子的 ggplot 在基于 geom_segment 的甘特图中排序条

python - 我的代码似乎得到了不正确的推文计数

python - Python 中的对角线网格遍历