加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

数据类型可以扔掉了?

发布时间:2021-02-07 11:01:47 所属栏目:动态 来源:互联网
导读:它还可以并行运行多个作业,易于添加参数,易于测试,提供简单的版本控制,出色的日志记录,故障排除功能等等。 与Airflow相比,它具有更多功能,但是它还有些不成熟,并且由于它需要跟踪数据,因此可能难以扩展,由于状态性,这是NiFi面临的一个问题。 而且

它还可以并行运行多个作业,易于添加参数,易于测试,提供简单的版本控制,出色的日志记录,故障排除功能等等。 与Airflow相比,它具有更多功能,但是它还有些不成熟,并且由于它需要跟踪数据,因此可能难以扩展,由于状态性,这是NiFi面临的一个问题。 而且它很大程度上基于Python生态系统。

Prefect

Prefect与Dagster相似,提供本地测试,版本控制,参数管理等等。 它也是基于Python的。

Prefect之所以与众不同,是为了克服Airflow执行引擎的局限性,例如改进的调度程序,参数化的工作流,动态工作流,版本控制和改进的测试。 对于许多面向DevOps的组织来说,必须具有版本控制功能,但Airflow仍不支持版本控制,Prefect确实支持该功能。

它具有一个核心的开源工作流管理系统以及一个完全不需要设置的云产品。 Prefect Cloud由GraphQL,Dask和Kubernetes支持,因此可以随时使用[4]。 UI仅在云产品中可用。

Apache NiFi

Apache NiFi不是业务流程框架,而是更广泛的数据流解决方案。 NiFi还可以安排作业,监视,路由数据,警报等等。 它专注于数据流,但您也可以处理批处理。

它不需要任何类型的编程,并提供拖放UI。 它非常易于使用,您可以将其用于中等难度的作业,而不会出现任何问题,但是对于较大的作业,它往往存在可伸缩性问题。

它在Hadoop外部运行,但可以触发Spark作业并连接到HDFS / S3。
 

安装非常简单。 您只需要Python。 它具有两个独立运行的进程,即UI和Scheduler。

原则[2]:

  • 动态的:气流管道是通过代码(Python)配置的,从而可以动态生成管道。 这允许编写可动态实例化管道的代码。
  • 可扩展:轻松定义您自己的运算符,执行程序并扩展库,使其适合于您的环境的抽象级别。
  • 优雅:气流管道简洁明了。 使用强大的Jinja模板引擎将参数化脚本内置到Airflow中。
  • 可扩展

尽管气流是作为代码编写的,但是气流并不是数据流解决方案[2]。 此外,工作流预计大部分是静态的或缓慢变化的,对于非常小的动态作业,还有其他选项,我们将在后面讨论。

尽管XCOM功能用于在经常需要的任务之间传递小的元数据,例如当您需要某种相关性ID时,它却是简单且无状态的。 它还支持变量和参数化作业。 最后,它具有支持SLA和警报。 它可以与用于监视的通话工具集成在一起。

Luigi是具有类似功能的Airflow的替代产品,但Airflow具有更多功能,并且比Luigi具有更好的扩展性。

Dagster

Dagster是机器学习,分析和ETL的新编排者[3]。 主要区别在于,您可以像Apache NiFi一样跟踪数据的输入和输出,从而创建数据流解决方案。 这意味着它可以跟踪执行状态,并可以将值具体化为执行步骤的一部分。 您可以使用数据管道和资产的统一视图在本地测试并在任何地方运行。 它支持任何云环境。

Dagster对业务流程图中各步骤之间的数据依赖关系进行建模,并处理它们之间的数据传递。 输入和输出上的可选类型有助于尽早发现错误[3]。 管道由共享的,可重用的,可配置的数据处理和基础架构组件构建而成。 Dagster的网络用户界面使任何人都可以检查这些对象并发现如何使用它们[3]。

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!