Universe 帮助中心

2.1 功能概览

创建于 2022-10-12 / 最近更新于 2022-12-09 / 9712
字体: [默认] [大] [更大]

一、数据对接

可进行多种数据源的对接(包括数据库,文件存储,以及来自观远BI平台的数据),插件化可配置能力支持数据源类型的可扩展性。

数据库

支持多种数据库的连接,包括MySQL、PostgreSQL、Greenplum、ClickHouse、Hive、Oracle、SQL Server、IBM DB2、SAP HANA、Vertica、Teradata、Impala、MangoDB、Sybase、MaxCompute等。

文件存储

在数据中心中,支持从Excel、CSV的本地文件进行数据导入,进而进行下一步数据处理的服务;在数据连接中支持FTP、Amazon S3等远端及云端文件存储服务,在数据处理任务中可以直接读取存储介质上的文件数据。

观远BI平台

在数据中心中,支持以数据集的方式无缝对接来自观远BI平台的数据,进而应对BI平台数据向业务数据库的回写需求。

API接口导入

提供完整定义的 Public API 数据写入和更新接口,支持外部系统将数据导入观远系统,进行工作流调用,并对观远系统内数据质量模型进行检测与反馈,以实现内外部系统数据处理流程的全链路贯通。

二、数据开发

数据集 

数据集,是指承载数据、使用数据、管理数据的基础,同样也是构建数据流与工作流的基础。

数据流开发

数据流作为数据处理的核心,提供了图形化的数据集成和处理能力,支持跨平台的数据流编排,并支持观远BI平台Smart ETL任务的平滑迁移。

工作流开发

依托工作流进行数据开发流程的定义与任务编排,支持任务类型包括:SQL/Python多种语言开发节点、FILE类型的云端数据存储获取节点、数据质量检查以及可扩展的Java插件化节点,并提供工作流管理能力。

参数管理

工作流及数据流支持参数的定义和引用,支持静态参数与动态变量,便于更加灵活地对进行任务调度、依赖逻辑编排、补数运行等

三、调度引擎

任务调度

通过图形化拖拽的方式对工作流进行任务编排,支持基于子工作流、依赖节点的依赖编排,提供调度优先级、失败重试等复杂调度策略配置。

实例管理

调度任务可进行实例化运行,提供重跑以及失败恢复机制,并支持实例状态监控、日志查看/下载等运维功能。

四、数据治理

数据血缘

支持表级血缘的管理和查看,便于进行数据对象的上下游血缘分析及影响范围分析。

数据质量

基于数据集进行表级及字段级的校验规则设置,提供自定义质量规则的功能,并支持定时检测并产出数据质量报告。

五、数据服务

基于数据中心提供的统一服务能力,与观远BI平台的数据集无缝对接;可结合BI平台进行数据可视化以及交互式决策分析,使数据开发流程与业务场景紧密结合。

六、插件扩展

提供灵活的Java SDK,已封装大部分通用逻辑,经过简单的二次开发可实现各种特殊算法来处理数据,包括基于机器学习的智能算法扩展。

七、实时数据

提供实时数据同步功能,将源端数据库中的增量数据变化实时同步至目标数据库中,实现目标库保持和源库的数据实时对应,为低延时的应用场景夯实底层数据基础。

八、Universe-lab

企业一站式数据科学分析平台,集数据准备、特征工程、算法实现、模型开发与运行、模型工程化管理于一体,打通从数据到模型、从模型到决策的流程。拖拽式+配置式的工作流设计,数据分析师可轻松实现模型从训练到应用的完整解决方案,真正帮助客户从实验到落地的全流程打通。

开发流程可视化 + 误差分析看板无缝内嵌

提供“可视化+拖拽式”AI数据流编排能力,实时预览开发过程结果、查看任意数据集内容,基于内置误差分析看板,即时展示预测精度进行误差分析,实现开发过程中的“所见即所得”。

数据质量有监控

基于数据开发平台灵活的质量检查规则配置能力,为预测准确性保驾护航。

特征库、模型库沉淀

根据业务经验封装特征库、模型库进行行业模板定制化,为AI场景的落地过程提效。

九、基础设施

安全与权限

提供项目化管理方式,在项目间进行资源和权限的隔离。

资源管理

支持文件等资源管理,结合工作流中的任务节点可提供脚本以及Spark任务的执行能力。

计算引擎

采用Spark提供计算引擎,支持集群化的横向扩展,最大程度保障大数据量场景下的计算性能和容灾能力。

数据存储

可采用MinIO+Delta lake的分布式对象存储,统一进行内部数据集的统一管理;也具备其他大数据平台(如CDH)的对接能力。



26 人点赞过