数据集预览与编辑
1. 概述
为帮助用户更好地理解和使用数据,观远BI支持用户对数据集的具体数据和各项信息进行预览,并在此基础上对数据集进行一定程度的编辑,本文将对此进行详细说明。
2. 操作指导
2.1. 预览
在数据集列表页,点击任意数据集的“…”按钮,选择“预览”,即可查看当前数据集的数据(最多可预览30行数据)。除了使用“预览”功能,还可前往数据集详情页的“ 概览 > 数据明细 ”界面查看数据集数据,相关操作详见下文数据明细。
2.2. 描述
创建数据集时,在确认数据表信息时可以添加描述信息;在数据集的详情页面,能够看到已添加的描述信息,也可进行编辑。
在数据集添加描述信息后,数据中心列表页新增了描述信息列。使用页面左上角搜索栏时,可以切换按名称/描述/全部搜索,搜索关键词将在结果中高亮显示。
2.3. 概览
在数据集详情页的“概览”界面,您可以查看数据集的详细信息,包括“数据结构”和“数据明细”,此外还可对数据集进行一系列编辑操作。
数据结构
点击“数据结构”后,您可查看该数据集的描述信息和字段信息,并对数据集的字段进行编辑和批量修改操作。
编辑
点击界面右上角的“编辑”按钮,进行如下配置:
将注释作为字段名(仅数据库数据集):勾选“将注释作为字段名”可将字段注释作为数据集字段名称,勾选后字段名称将自动同步成数据库中已设置的字段注释。
字段分组:可为字段选择分组。
字段公式:新建的计算字段或分组字段的“字段公式”列会出现带有设置图标的操作框,点击即可对计算公式或分组进行编辑。
注释:给数据集的各个字段添加注释。
注意:
1. 非新建的计算字段或分组字段,无输入框、不能编辑。
2. 此处的将“注释作为字段名”并非是将用户在“概览”中手动添加的“注释”作为数据集字段名称,而是将字段名称自动同步成数据库中已设置的字段注释。
批量修改字段信息
支持批量修改字段信息,操作步骤如下。
点击“批量修改字段信息”按钮。
点击弹窗中绿色着重显示的“下载模版”按钮,下载 Excel 文档。
按照修改需求填写的模版内容完成后,上传后可完成对应字段信息的批量修改。下游引用此数据集的计算字段、ETL 节点将会自动继承修改好的字段名。
注意:
1. "下载模版"得到待修改信息的录入模版时,原始字段名称必填,对应数据结构中的"原始字段名称";
2. 仅修改字段名称的情况下,注释可为空;
3. 仅修改注释的情况下,字段名称可不填,注释为空的情况下将不会更新原有字段注释内容。
数据明细
用户可在“数据明细”界面预览数据集的具体数据,提供1000行数据预览。在此基础上,您可以进行筛选数据、新建计算/分组字段、导出数据集操作。
筛选数据
可对预览数据进行筛选,支持两种方式:设置筛选规则和选择列。
方式一:设置筛选规则
点击右上角的“筛选数据”,进入“筛选规则”编辑弹窗,点击“新建”;
进入“规则编辑器”,选择字段;然后根据页面提示,对筛选类型(共3种类型:自动、选择、范围)进行设置。
方式二:选择列
点击“筛选数据”右边的小箭头,选择“选择列”,即可勾选想要筛选的列。
新建计算字段
点击右上方的“新建计算字段”,即可打开“计算字段编辑器”,选择函数、字段/参数,并设置新的“字段名称”。更多有关新建计算字段的说明详情请参阅《新建字段》。
新建分组字段
点击概览的右上角“新建计算字段”右侧的小箭头,选择“新建分组字段”,在“分组编辑器”的弹窗中,为您想要建立的新字段命名,选择想要分组归纳的字段和分组方式。设置未分组元素显示为“合并条目”或“单独的条目”,最后点击“保存”。更多有关新建分组字段的说明详情请参阅《新建字段》。
导出数据
支持两种导出方式, CSV 格式或 EXCEL 格式。详情请参阅《基础通用操作》。
数据集导出数据量,受管理中心-系统管理-高级设置-导出设置中,行数配置项控制。
2.4. 模型结构
模型结构,是指数据集的数据层级关系与数据流转的逻辑结构,不同类型的数据集的模型结构有所差异。进入数据集的详情界面后,您将看到该数据集的模型结构。点击“模型结构”,即可看到该数据集的数据源、数据账户、ETL、数据库查询SQL、动态指标等模型结构信息。
以数据库数据集为例,可以查看数据库查询SQL。
以ETL数据集为例,可以查看其原始数据集,在ETL详情模块还可前往查看其ETL模型信息。
以直连 Hive 数据集(通过直连数据库创建的数据集)为例,点击右上角的“编辑”,即可进入模型结构的更新流程(核心是数据源的变更):
(非必须)选择账户:可以选择另一个数据账户,也可以新建一个数据账户。
(非必须)查询变量:查询变量支持多条,在查询sql提交前先执行,数据集创建也支持设置查询变量,在抽取前先执行。
注意:
1. 查询变量当前阶段支持MaxCompute、Impala和Hive,其它数据库引擎请联系观远支持人员评估。
2. 由于查询变量是下推到底层数据平台执行,参数范围和书写规范需遵守底层数据平台规范。
(必须)选择查询表:可以输入或选择您想要查询的数据表SQL查询,也可以进行图形建模(图形建模详见《标准数据库连接指南-图形建模》),具体操作方式与该数据集的创建过程是一致的。
切换表(数据源)后,当前数据集的模型结构会发生变更(界面弹出“更新模型结构确认”弹窗提醒),需要用户手动确认目标数据集结构的字段更新配置(即关联字段确认流程),字段未关联时会导致数据丢失,完成修改后点击确定。
确认更新模型结构的更新方式,支持“仅更新结构”和“重置数据集”两种,按需选择后,即可完成模型结构的更新。
注意:
1. 当勾选“仅更新数据结构”,并单击“确定”时,仅需要按照模型结构 SQL 解析出的 schema,对目标数据集数据结构进行更新,无须对数据集做全量更新操作;
更新后表现:
(1)源端(相较于目标端)新增列:数据集自动新增列,新增列无历史数据,其余数据无变化;
(2)源端 schema 与目标端 schema 一致:数据结构&数据均无变化;
(3)源端(相较于目标端)缺失列:数据集对应列及数据删除,其余数据无变化;
(4)列名称修改:数据集对应列名称修改,数据无变化。
2. 当未勾选“仅更新数据结构”选项时,遵照现有逻辑,全量更新数据并修改 schema。