2.1 功能概览
一、数据对接
可进行多种数据源的对接(包括数据库,文件存储,以及来自观远BI平台的数据),插件化可配置能力支持数据源类型的可扩展性。
数据库
支持多种数据库的连接,包括MySQL、PostgreSQL、Greenplum、ClickHouse、Hive、Oracle、SQL Server、IBM DB2、SAP HANA、Vertica、Teradata、Impala、MangoDB、Sybase、MaxCompute等。
文件存储
在数据中心中,支持从Excel、CSV的本地文件进行数据导入,进而进行下一步数据处理的服务;在数据连接中支持FTP、Amazon S3等远端及云端文件存储服务,在数据处理任务中可以直接读取存储介质上的文件数据。
观远BI平台
在数据中心中,支持以数据集的方式无缝对接来自观远BI平台的数据,进而应对BI平台数据向业务数据库的回写需求。
API接口导入
提供完整定义的 Public API 数据写入和更新接口,支持外部系统将数据导入观远系统,进行工作流调用,并对观远系统内数据质量模型进行检测与反馈,以实现内外部系统数据处理流程的全链路贯通。
二、数据开发
数据集
数据集,是指承载数据、使用数据、管理数据的基础,同样也是构建数据流与工作流的基础。
数据流开发
数据流作为数据处理的核心,提供了图形化的数据集成和处理能力,支持跨平台的数据流编排,并支持观远BI平台Smart ETL任务的平滑迁移。
工作流开发
依托工作流进行数据开发流程的定义与任务编排,支持任务类型包括:SQL/Python多种语言开发节点、FILE类型的云端数据存储获取节点、数据质量检查以及可扩展的Java插件化节点,并提供工作流管理能力。
参数管理
工作流及数据流支持参数的定义和引用,支持静态参数与动态变量,便于更加灵活地对进行任务调度、依赖逻辑编排、补数运行等。
三、调度引擎
任务调度
通过图形化拖拽的方式对工作流进行任务编排,支持基于子工作流、依赖节点的依赖编排,提供调度优先级、失败重试等复杂调度策略配置。
实例管理
调度任务可进行实例化运行,提供重跑以及失败恢复机制,并支持实例状态监控、日志查看/下载等运维功能。
四、数据治理
数据血缘
支持表级血缘的管理和查看,便于进行数据对象的上下游血缘分析及影响范围分析。
数据质量
基于数据集进行表级及字段级的校验规则设置,提供自定义质量规则的功能,并支持定时检测并产出数据质量报告。
五、数据服务
基于数据中心提供的统一服务能力,与观远BI平台的数据集无缝对接;可结合BI平台进行数据可视化以及交互式决策分析,使数据开发流程与业务场景紧密结合。
六、插件扩展
提供灵活的Java SDK,已封装大部分通用逻辑,经过简单的二次开发可实现各种特殊算法来处理数据,包括基于机器学习的智能算法扩展。
七、实时数据
提供实时数据同步功能,将源端数据库中的增量数据变化实时同步至目标数据库中,实现目标库保持和源库的数据实时对应,为低延时的应用场景夯实底层数据基础。
八、Universe-lab
企业一站式数据科学分析平台,集数据准备、特征工程、算法实现、模型开发与运行、模型工程化管理于一体,打通从数据到模型、从模型到决策的流程。拖拽式+配置式的工作流设计,数据分析师可轻松实现模型从训练到应用的完整解决方案,真正帮助客户从实验到落地的全流程打通。
开发流程可视化 + 误差分析看板无缝内嵌
提供“可视化+拖拽式”AI数据流编排能力,实时预览开发过程结果、查看任意数据集内容,基于内置误差分析看板,即时展示预测精度进行误差分析,实现开发过程中的“所见即所得”。
数据质量有监控
基于数据开发平台灵活的质量检查规则配置能力,为预测准确性保驾护航。
特征库、模型库沉淀
根据业务经验封装特征库、模型库进行行业模板定制化,为AI场景的落地过程提效。
九、基础设施
安全与权限
提供项目化管理方式,在项目间进行资源和权限的隔离。
资源管理
支持文件等资源管理,结合工作流中的任务节点可提供脚本以及Spark任务的执行能力。
计算引擎
采用Spark提供计算引擎,支持集群化的横向扩展,最大程度保障大数据量场景下的计算性能和容灾能力。
数据存储
可采用MinIO+Delta lake的分布式对象存储,统一进行内部数据集的统一管理;也具备其他大数据平台(如CDH)的对接能力。