我想使用 Spark 构建模型(特别是决策树),然后使用纯 Python(不是 pyspark)应用程序应用它们
看来 PMML 导出是预期的方法,但树模型尚不支持它,而且我没有找到似乎正在积极开发的 Python PMML 库
最佳答案
Augustus 已不再开发,地址为 https://code.google.com/p/augustus/ 。最近,有支持 scikitlearn pmml 导入/导出的工作,地址:https://github.com/alex-pirozhenko/sklearn-pmml这可能是一个选择。
正如 @zero323 所指出的,PMML 导出仅适用于某些型号。对于其他模型,如果您针对特定的服务平台,您可以编写自己的自定义导出代码或编写自己的解析代码(对于决策树来说,是以自定义 parquet 格式编写的)。
关于python - 如何在纯Python中运行spark mllib决策树模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32574143/