java - 使用pentaho java API为以编程方式传递hdfs文件路径的hdfs文件生成报告

标签 java hadoop pentaho kettle

我是Pentaho的新手,已经安装了Pentaho Enterprise Edition并设置了BigData所需的配置。我能够运行PDI转换并使用该工具生成报告。在我的Java Web应用程序中,我已经使用maven下载了pentaho-水壶 jar 生成报告是必需的。是否可以通过使用report api动态或以编程方式传递hdfs文件路径来生成hdfs文件的报告?如果是,则需要执行哪些步骤?

提前致谢。

最佳答案

您可以在服务器端生成一份pentaho报告。为了能够查询hdfs,此报告应查询PDI转换/作业。当它尝试查询时-它开始转换。因此,您必须具有完整的PDI基础结构才能执行此作业/转换。
单独的广口瓶将无济于事,因为PDI(也称为“五斗勺”)是“装置”,而不是库。它使用“垫片”作为插件与hdfs进行交互。此垫片必须具有正确的文件夹和配置文件等结构。在企业版中,通常所有这些内容都隐藏在企业服务器的内部。

如果您要使用“我自己的Java Web应用程序”-从我的 Angular 出发,使所有工作正常的最简单方法是创建一个水壶转换,安装Carte服务器(在您的Web服务器或另一台计算机附近) ,配置hdfs步骤以在此Carte服务器上运行。

从技术上讲,在Web应用程序上下文中启动此类报告时,这将触发执行水壶转换。这还将调用点菜服务器进行hdfs步骤。由于Carte服务器安装了正确的PDI才能与HDFS进行交互-它会获取HDFS数据并将其发送回您的应用程序。自您的Web应用程序运行报告以来,这些数据将通过网络传播:报告运行转换,转换从Carte服务器获取数据,Carter服务器从hdfs获取数据。

您可能会考虑将点菜服务器作为只能访问的本地主机,同时将Web应用程序暴露给外部请求。希望它会有所帮助。

希望它会有所帮助。

关于java - 使用pentaho java API为以编程方式传递hdfs文件路径的hdfs文件生成报告,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35769498/

相关文章:

java - Android Java 返回类型错误

java - 如何将平均值放入 arrayList 中,以及如何将输入文件中的分数放入自己的 arrayList 中?

apache-spark - 在集群模式下随机运行Spark作业时,应用程序主进程被 yarn 杀死

hadoop - 无法在hadoop下将pentaho数据集成客户端与Hbase连接

java - 基于多个参数的对象列表排序

java - IntelliJ 13.1.6 JDK 8 支持

pentaho - Pentaho-Data 集成的安装

java - Pentaho maven/gradle 依赖项

python - 使用Apache Spark实现python功能

linux - 修改 hadoop 作业中的 LD_LIBRARY_PATH JAVA_LIBRARY 和 CLASSPATH