python - 将数据框从一个 Jupyter Notebook 文件导入到另一个文件

标签 python python-3.x jupyter-notebook

我有 3 个单独的 jupyter notebook 文件来处理单独的数据帧。我为每个 df 清理和操作这些笔记本中的数据。有没有办法在单独的笔记本中引用清理/最终数据?

我担心的是,如果我在一个笔记本上处理所有 3 个 df,然后在(合并/加入)之后用它做更多的事情,那将是一英里长。我也不想为了让数据准备好在我的新笔记本中使用而重新编写一堆代码。

最佳答案

如果您使用的是 pandas 数据帧,那么一种方法是使用 pandas.DataFrame.to_csv()pandas.read_csv() 来保存和加载清理后的数据每一步之间。

  1. Notebook1 加载 input1 并保存 result1。
  2. Notebook2 加载 result1 并保存 result2。
  3. Notebook3 加载 result2 并保存 result3。

如果这是您的数据:

import pandas as pd
raw_data = {'id': [10, 20, 30], 
            'name': ['foo', 'bar', 'baz']
           }
input = pd.DataFrame(raw_data, columns = ['id', 'name'])

然后在notebook1.ipynb中,这样处理:

# load
df = pd.read_csv('input.csv', index_col=0)
# manipulate frame here
# ...
# save
df.to_csv('result1.csv')

...并为链中的每个阶段重复该过程。

# load
df = pd.read_csv('result1.csv', index_col=0)
# manipulate frame here
# ...
# save
df.to_csv('result2.csv')

最后,您的笔记本集合将如下所示:

  • 输入.csv
  • 笔记本1.ipynb
  • notebook2.ipynb
  • notebook3.ipynb
  • result1.csv
  • result2.csv
  • result3.csv

文档:

关于python - 将数据框从一个 Jupyter Notebook 文件导入到另一个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46674086/

相关文章:

python - AWS Python Lambda 与 Oracle

windows - 在 Windows 和 Apache Toree Kernel 上使用 Jupyter 以实现 Spark 兼容性

python - 如果字符串包含重复单词,则仅保留第一个单词

python-3.x - tensorflow 没有为任何变量错误提供梯度

python - Python ndimage generic_filter 的条件逻辑

python - 如何优雅地发出自定义断言错误?

python-3.x - 使用魔术命令 %% timeit -n1 -r1 导致 jupyter 不保留局部变量的值

google-cloud-platform - 在 Google Cloud VM 上运行 Jupyter Notebook 时出现 SSL 错误

python - 我怎样才能使我的 Django 应用程序的这篇随机博客文章重定向更有效率

python - 线程和 tkinter