我对数据挖掘很感兴趣,我正在写关于它的论文。对于我的论文,我想使用 yelp 的数据挑战的数据集,但是我无法打开它,因为它是 json 格式并且将近 2 GB。在它的网站上说可以使用 mrjob 在 phyton 中打开数据集,但我也不太擅长编程。我在网上搜索并查看了 github 中提供的一些 yelp 代码,但是我似乎找不到一篇文章或其他内容来清楚地解释如何打开数据集。 您能否逐步告诉我如何打开此文件以及如何将其转换为 csv?
最佳答案
数据是.tar格式,当你再次解压它时它有另一个文件,将它重命名为.tar然后解压它。你将得到所有的json文件
关于Json-Opening Yelp Data Challenge的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35588515/