近期,Apache DolphinScheduler 将迎来 3.2.0 版本的到来。本次发版为大版本发布,将会带来众多大家期待已久的新功能和新改进。为了让用户提前感知到新版本的变化,社区特意提前“剧透”新版本的重要 feature,并制作了视频进行介绍。
添加默认租户
在之前的版本中,用户部署完毕后必须手动添加租户。3.2.0 版本中添加了默认租户,方便大家更直接地使用 Apache DolphinScheduler。
新增多种数据源
新增了多个数据源,如 Snowflake、Databend、Kyuubi、OceanBase、Dameng、AzureSQL、StarRocks、AWS Athena,并且更新了部分数据源,如 Redshift 增加 Access key。
新增任务类型
新增了多个任务类型,如
- 通用模块中,增加 Remote-shell 组件
- Cloud 模块中,新增 Amazon DMS、Azure Datafactory,增强与各种云的互联互通
- 机器学习模块中,新增 Kubeflow 组件(基于云原生构建的机器学习任务工具大合集)
- 其他模块中,增加 Amazon Datasync、Apache Linkis
- 更新了部分任务,如 DataX 支持 Presto,http任务增加output 参数传递,运行批量同时 kill 多个 Yarn 任务
- Dependent 支持依赖自己
- Zeppelin 鉴权
- 任务支持了缓存
- Sqoop 日志支持隐藏密码
- SQL 任务支持默认切割符
重跑任务时指定工作流向前、向后运行
之前在任务执行失败后,用户只能通过工作流重跑。新版本中,我们可以指定当前工作流向前、向后执行,更加灵活地对失败后的任务进行处理。
远程日志
增加了远程日志功能,并同时支持了 Google Cloud Storage、Amazon S3、阿里云 OSS 日志存储,大家可以通过编辑配置文件,把日志存储到云端。
参数
- 调整参数优先级,启动参数最高。
- 增加了内置参数计算规则
- 增加了文件类型的参数
资源中心
- 增加了Alibaba Cloud OSS的支持,重构资源中心并设计默认使用本地作为存储介质,重新支持了 re-upload。
- 资源中心容许覆盖上传,优化文件路径,显示文件的全部路径。另外,之前版本中资源中心已经上传的同类型文件只能删除后重新上传,新版本中对本功能进行了优化,可以点击上传按钮进行上传。
增强页面易用性
- 增加页面易用性和便利性,如增加 workflow instance 跳转到当前工作流、复制工作流名称、调整列宽等操作
- 默认情况下会有 default 租户和本地资源中心,安装后就能使用
- 允许在 workflow instance 中重新运行任务,更加明确的任务运行日志
- json 导出可阅读性更强
云原生相关
- 支持 KEDA 做 worker 自动扩缩容
- 支持 Terraform 部署到 AWS
- zk 和 pg 支持多架构
- 提交 spark 任务到 Kubernetes
- 获取 pod 实时日志
- 自定义 k8s 任务标签
API
- 增加了部分 Restful API,包括 taskInstance、workflow state、workflowInstance、workflow and schedule、task relation
- API 触发工作流运行可以获得instance ID
注册中心
增加 ETCD、JDBC 注册中心
架构
- Alert 支持 HA
- 单线程更新 Kerberos
- Worker server 移除了 dao 依赖
- 接管 task instance 失败的任务
- 增加动态任务组配置
- 重构了逻辑任务和远程命令
- 资源限制(cpu 内存)从原来绝对值改成百分比
- 支持了 SSO
3.2.0 正式版本发布流程正在准备中,敬请关注官网和 GitHub,获取最新消息!
本文由 白鲸开源 提供发布支持!