Universe-lab 帮助中心

数据准备

创建于 2022-11-07 / 1100
字体: [默认] [大] [更大]

数据准备工作是为之后的数据处理、特征工程、模型预测等提供原始输入数据。

AI项目隶属于平台项目,在数据准备时,建议从平台项目的数据中心进行,使输入数据可以方便地被平台项目下的其他资源共享,同时可以通过工作流调度,对原始输入数据进行周期性更新。

具体关于平台项目的使用请参考:《3.1 项目管理》


1.建立数据连接

入口:数据中心-数据连接-创建数据连接

  • 选择数据源,填写对应的配置信息,点击“测试连接”,测试连接正常后,点击“确定”完成数据连接创建。当前平台已经支持各种主流数据库;同时提供了“Guandata类型”数据连接,支持直接利用观远数据 BI 平台中的数据集进行各项数据处理工作。

  • 完成数据连接创建后,可针对数据连接可进行项目的授权,在授权后,数据连接可被已授权项目内的用户使用。

2. 创建数据集

通过工作流创建/更新数据集

入口:任务调度-工作流-创建/编辑工作流

完成配置后,上线并运行工作流,成功运行后,即完成对应数据集的注册。

通过任务定时调度,可完成对应数据集的增量/全量更新等。

通过文件创建数据集

通过文件创建数据集,主要用于临时上传手工表及数仓建立表结构等场景。

入口:数据中心-数据集-创建数据集

  • 点击创建数据集,可以选择两种数据集创建方式:上传数据集和创建数据结构。

    • 上传数据集

      • 点击上传数据集,选择上传的文件类型,点击“下一步”。

      • 点击上传文件或拖拽文件,即可上传本地数据表。

      • 确认数据集信息,若数据集的行数或列数大于等于2时可以选择跳过前几行或几列,也可以选择是否设置交叉表。点击”确认新建”,完成数据集的创建。

    • 创建数据结构

      • 进入创建界面,可以选择“通过数据字典创建”或“直接创建”。(此处以上传文件为例)

      • 对已上传的文件进行进一步的编辑。选择数据中的字段名、类型、注释,匹配字段类型,进行文件解析,编辑完成后点击“下一步”。

      • 确认数据集信息,点击”确认新建”,完成数据集的创建。


1 人点赞过