数据准备
数据准备工作是为之后的数据处理、特征工程、模型预测等提供原始输入数据。
AI项目隶属于平台项目,在数据准备时,建议从平台项目的数据中心进行,使输入数据可以方便地被平台项目下的其他资源共享,同时可以通过工作流调度,对原始输入数据进行周期性更新。
具体关于平台项目的使用请参考:《3.1 项目管理》
1.建立数据连接
入口:数据中心-数据连接-创建数据连接
选择数据源,填写对应的配置信息,点击“测试连接”,测试连接正常后,点击“确定”完成数据连接创建。当前平台已经支持各种主流数据库;同时提供了“Guandata类型”数据连接,支持直接利用观远数据 BI 平台中的数据集进行各项数据处理工作。
完成数据连接创建后,可针对数据连接可进行项目的授权,在授权后,数据连接可被已授权项目内的用户使用。
2. 创建数据集
通过工作流创建/更新数据集
入口:任务调度-工作流-创建/编辑工作流
在工作流中拖入SQL-获取数据节点,完成相应算子配置(详情介绍见:《4.2.1 SQL节点》)
通过注册数据集节点,完成数据集注册(详情介绍见:《4.2.2 DATASET节点》)
完成配置后,上线并运行工作流,成功运行后,即完成对应数据集的注册。
通过任务定时调度,可完成对应数据集的增量/全量更新等。
通过文件创建数据集
通过文件创建数据集,主要用于临时上传手工表及数仓建立表结构等场景。
入口:数据中心-数据集-创建数据集
点击创建数据集,可以选择两种数据集创建方式:上传数据集和创建数据结构。
上传数据集
点击上传数据集,选择上传的文件类型,点击“下一步”。
点击上传文件或拖拽文件,即可上传本地数据表。
确认数据集信息,若数据集的行数或列数大于等于2时可以选择跳过前几行或几列,也可以选择是否设置交叉表。点击”确认新建”,完成数据集的创建。
创建数据结构
进入创建界面,可以选择“通过数据字典创建”或“直接创建”。(此处以上传文件为例)
对已上传的文件进行进一步的编辑。选择数据中的字段名、类型、注释,匹配字段类型,进行文件解析,编辑完成后点击“下一步”。
确认数据集信息,点击”确认新建”,完成数据集的创建。