AIFlow 是一个基于事件的工作流编排平台,允许用户以编程方式创作和计划工作流,混合使用流式处理和 批处理任务。
数据挖掘平台在此起到数据运营的承上启下的环节,主要负责数据的挖掘分析、ETL、数据检测。
[hidecontent type="logged" desc="隐藏内容:登录后可查看"]
大多数现有的工作流编排平台(例如 Apache AirFlow、KubeFlow) 根据上游任务的状态变化调度任务执行 执行。虽然这种方法适用于有保证的批处理任务 最后,它不适用于可能运行 无限时间,无需更改状态。AIFlow旨在促进 涉及流式处理任务的工作流的编排。
例如,用户可能希望连续运行 Flink 流作业以 可组装的训练数据,并在每次 Flink 作业已经处理了过去一小时的所有上游数据。为了 使用非基于事件的工作流编排平台安排此工作流, 用户需要根据挂钟时间定期安排训练作业。如果 出现流量高峰或上游作业失败,则 Flink 作业可能不会 在 TensorFlow 之前已经处理了预期的上游数据量 作业启动。上游作业应继续等待,或快速失败,或者 处理部分数据,其中没有一个是理想的。相比之下,AIFlow 提供 用于 Flink 作业的 API,用于在每次基于事件的水印时发出事件 递增一小时,触发用户指定训练的执行 约伯,没有遭受上述问题。
了解更多关于 AIFlow 的信息 https://ai-flow.readthedocs.io
[/hidecontent]