我是数据分析师。我的公司正在将所有数据科学转移到云提供商(可能是 Azure、GCP、AWS)。所有数据科学编程工具(例如 Jupyter Notebook)都将安装在云环境中(笔记本电脑上不会本地安装 Python 或 Jupyter Notebooks)。
对于我的大部分工作,我将直接从本地数据库读取/提取关系数据库表。而且我的大部分数据分析工作不需要任何 GPU 实例来进行数据处理。有时,我也会使用 Jupyter Notebook 进行简单的研究或实验数据分析编程,例如数据清理,而无需使用 GPU 实例。
鉴于我的任务均不使用 GPU,我想了解是否可以在不为我的公司在其数据科学云计算平台上产生任何按使用付费成本或不必要的费用的情况下执行此类事件?请指教,谢谢。
编辑注意:在我公司的 PC 上使用 Jupyter 进行本地工作和开发很困难,因为我没有安装 Python 包的完整权限(通常这必须请求批准,这是非常痛苦的并且需要很长时间)。
最佳答案
Jupyter Notebook 可以安装在云端,也可以安装在本地和工作站上。您可以支付云中、本地或您的资源中的资源费用。
当然,如果加上大磁盘、GPU、CPU、内存,成本就更高了!问题不在于成本,而在于你想在哪里运行你的笔记本?
<小时/>我认为,还有一个糟糕的选择。通过 Colab,您可以获得免费的 Jupyter Notebook 实例。但是,据我所知,它不是私有(private)的,而是公共(public)实例,如果您为自己的公司工作,则可能会发生数据泄露。 (不确定,需要验证,但无论如何这都不是推荐的解决方案)
<小时/>编辑 1
考虑到您的最新评论,我想知道您是否需要 jupyter 笔记本来运行您的代码。
事实上,Jupyter 就是简单的 IDE:您可以创建脚本(即使是本地需要 GPU 的脚本),并在您仅为流程配置的 Compute Engine 上的生产数据上运行它。在脚本结束时销毁虚拟机。没有 Jupyter 笔记本环境,不是吗?
<小时/>编辑2
感谢您的留言,我了解到本地开发不是一种选择。在这种情况下,我建议您使用托管 Jupyter Notebook 解决方案。如果需要,您可以在 Google Cloud 上配置此虚拟机,也可以拥有不同的虚拟机(带或不带 GPU)。
原理是相同的:当您停止使用实例时,请停止它。您只需在实例关闭时支付存储(磁盘)费用。
开发原理可以是相同的:为您的开发使用小型 CPU/GPU,当您必须处理大数据时,在功能强大的虚拟机上运行脚本。由于您只需在虚拟机运行时付费,因此您可以像这样优化成本。
关于amazon-web-services - 与云上数据分析(数据清理)相关的成本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69609379/