python - Airbnb Airflow 与 Apache Nifi

标签 python apache-nifi airflow

Airflow 和 Nifi 在工作流程上执行相同的工作吗?每个人的优点/缺点是什么? 我需要读取一些 json 文件,向其中添加更多自定义元数据并将其放入 Kafka 队列中进行处理。我能够在 Nifi 中做到这一点。我仍在研究 Airflow 。我正在尝试为我的项目选择最好的工作流引擎 谢谢!

最佳答案

要详细了解 Airflow 和 Apache NiFi,请查看此 reddit 帖子:https://www.reddit.com/r/bigdata/comments/51mgk6/comparing_airbnb_airflow_and_apache_nifi/

对于您摄取 Json 文件、丰富它们并将它们路由到 Kafka 的特定用例,我相信 NiFi 是适合这项工作的工具。以下是您可能使用的几个处理器以及每个处理器的文档:

获取文件:https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-standard-nar/1.9.2/org.apache.nifi.processors.standard.GetFile/index.html

JoltTransformJSON:https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-standard-nar/1.9.2/org.apache.nifi.processors.standard.JoltTransformJSON/index.html

PublishKafka(或 PublishKafka_0_10,取决于您的版本):https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-kafka-0-9-nar/1.9.2/org.apache.nifi.processors.kafka.pubsub.PublishKafka/index.html

关于python - Airbnb Airflow 与 Apache Nifi,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39399065/

相关文章:

java - Apache 尼菲 : Removing multiple columns from a csv

apache-nifi - Apache NiFi 从 GetFile 中仅提取文件名

执行任务后, Airflow 调度程序似乎没有运行

python-2.7 - 为什么任务在 trigger_dag 之后在 Airflow 1.10.2 中停留在 None 状态

python "and"关键字与嵌套 if 语句

python - python中三角函数的积分

hadoop - NIFI:使用卡夫卡并将数据存储到配置单元中的正确方法

mysql - 如何将 AWS EC2 上设置的 Airflow 正确连接到 RDS?

python - 在正整数的有序列表中找到最大的正增量

python - 如何处理这个异常 'ascii' codec can't decode?