2.1 功能概览

创建于 2022-10-12 / 最近更新于 2022-12-09 / 10873

字体： [默认] [大] [更大]

一、数据对接

可进行多种数据源的对接（包括数据库，文件存储，以及来自观远BI平台的数据），插件化可配置能力支持数据源类型的可扩展性。

数据库

支持多种数据库的连接，包括MySQL、PostgreSQL、Greenplum、ClickHouse、Hive、Oracle、SQL Server、IBM DB2、SAP HANA、Vertica、Teradata、Impala、MangoDB、Sybase、MaxCompute等。

文件存储

在数据中心中，支持从Excel、CSV的本地文件进行数据导入，进而进行下一步数据处理的服务；在数据连接中支持FTP、Amazon S3等远端及云端文件存储服务，在数据处理任务中可以直接读取存储介质上的文件数据。

观远BI平台

在数据中心中，支持以数据集的方式无缝对接来自观远BI平台的数据，进而应对BI平台数据向业务数据库的回写需求。

API接口导入

提供完整定义的 Public API 数据写入和更新接口，支持外部系统将数据导入观远系统，进行工作流调用，并对观远系统内数据质量模型进行检测与反馈，以实现内外部系统数据处理流程的全链路贯通。

二、数据开发

数据集

数据集，是指承载数据、使用数据、管理数据的基础，同样也是构建数据流与工作流的基础。

数据流开发

数据流作为数据处理的核心，提供了图形化的数据集成和处理能力，支持跨平台的数据流编排，并支持观远BI平台Smart ETL任务的平滑迁移。

工作流开发

依托工作流进行数据开发流程的定义与任务编排，支持任务类型包括：SQL/Python多种语言开发节点、FILE类型的云端数据存储获取节点、数据质量检查以及可扩展的Java插件化节点，并提供工作流管理能力。

参数管理

工作流及数据流支持参数的定义和引用，支持静态参数与动态变量，便于更加灵活地对进行任务调度、依赖逻辑编排、补数运行等。

三、调度引擎

任务调度

通过图形化拖拽的方式对工作流进行任务编排，支持基于子工作流、依赖节点的依赖编排，提供调度优先级、失败重试等复杂调度策略配置。

实例管理

调度任务可进行实例化运行，提供重跑以及失败恢复机制，并支持实例状态监控、日志查看/下载等运维功能。

四、数据治理

数据血缘

支持表级血缘的管理和查看，便于进行数据对象的上下游血缘分析及影响范围分析。

数据质量

基于数据集进行表级及字段级的校验规则设置，提供自定义质量规则的功能，并支持定时检测并产出数据质量报告。

五、数据服务

基于数据中心提供的统一服务能力，与观远BI平台的数据集无缝对接；可结合BI平台进行数据可视化以及交互式决策分析，使数据开发流程与业务场景紧密结合。

六、插件扩展

提供灵活的Java SDK，已封装大部分通用逻辑，经过简单的二次开发可实现各种特殊算法来处理数据，包括基于机器学习的智能算法扩展。

七、实时数据

提供实时数据同步功能，将源端数据库中的增量数据变化实时同步至目标数据库中，实现目标库保持和源库的数据实时对应，为低延时的应用场景夯实底层数据基础。

八、Universe-lab

企业一站式数据科学分析平台，集数据准备、特征工程、算法实现、模型开发与运行、模型工程化管理于一体，打通从数据到模型、从模型到决策的流程。拖拽式+配置式的工作流设计，数据分析师可轻松实现模型从训练到应用的完整解决方案，真正帮助客户从实验到落地的全流程打通。

开发流程可视化 + 误差分析看板无缝内嵌

提供“可视化+拖拽式”AI数据流编排能力，实时预览开发过程结果、查看任意数据集内容，基于内置误差分析看板，即时展示预测精度进行误差分析，实现开发过程中的“所见即所得”。

数据质量有监控

基于数据开发平台灵活的质量检查规则配置能力，为预测准确性保驾护航。

特征库、模型库沉淀

根据业务经验封装特征库、模型库进行行业模板定制化，为AI场景的落地过程提效。

九、基础设施

安全与权限

提供项目化管理方式，在项目间进行资源和权限的隔离。

资源管理

支持文件等资源管理，结合工作流中的任务节点可提供脚本以及Spark任务的执行能力。

计算引擎

采用Spark提供计算引擎，支持集群化的横向扩展，最大程度保障大数据量场景下的计算性能和容灾能力。

数据存储

可采用MinIO+Delta lake的分布式对象存储，统一进行内部数据集的统一管理；也具备其他大数据平台（如CDH）的对接能力。

26 人点赞过