智能 ETL(Smart ETL)高级计算
1. 数据勘查
功能说明:在 Smart ETL(后文统一简称为 ETL)开发过程中,要时常查看数据集的统计信息,如:数据行数、某个字段的唯一值个数、Null 值个数等,对于这些信息往往需要进行“筛选数据行”、“分组聚合”等多种操作进行人工配置,为简化处理流程,观远数据近期在 ETL 中新增“数据探查”操作,可一次性输出数据集统计信息,提高数据处理效率。
具体操作:进入ETL编辑界面,左侧操作栏中在“高级计算”分类下方找到 数据探查 ,拖入编辑界面,将相关的数据处理操作符连接到 数据探查 ,点击后进行设置。
勾选需要统计的数据集信息,表级别支持统计数据集的行列数;字段级别,首先选择需要统计的字段,支持统计一个字段的 Null 值个数、唯一值个数、枚举值(最多展示200个枚举值);点击编辑区域下方 查询 ,查看数据集统计信息。
2. SQL输入
SQL输入 算子,能够帮助习惯使用SQL语句的数据分析人员能够通过SQL输出数据集,缩短了配置流程。
为了帮助ETL访问者更加清晰明了地查看详细信息,ETL中的 SQL输入 、 新建计算字段 算子的字段表达式内容支持外部展示。
功能说明:使用SQL对数据进行查询、提取与融合。
配置说明:拖入 SQL输入 算子至画布中,选中该节点,然后点击 编辑 按钮。可按照相关示例引入函数、填写字段名称,点击 确定 按钮即可。
同时,在选择字段加入SQL编辑器时,支持一次性选取多个字段(“shift”支持连续多选,“cmd”支持跳跃多选)。
具体操作:在 字段栏 中,点击第一个输入字段后,按下shift键再选另外一个,会将多个字段填入查询框,并自动补齐字段间分隔符,cmd同理。
3. 关联性挖掘
关联性挖掘 算子,能够帮助数据分析人员快速实现关联挖掘算法,找到数据内不同项目间有高关联性的项目。(此功能为付费模块,默认不开放,如需体验或购买,请联系观远数据商务人员)
4. 智能对标
智能对标 算子,能够让用户指定分类主体、指定相关分类特征以及相邻主体数量后,可自动获取该每个主体(门店)的对比项(对比门店),以列表形式展示。(此功能为付费模块,默认不开放,如需体验或购买,请联系观远数据商务人员)
如后续使用其他数据处理算子,详情参考 新手入门 。