数据集概述
1. 数据集概述
数据集,是观远数据BI系统中承载数据、使用数据、管理数据的基础,同样也是构建数据分析的基础。您可以通俗地将其理解为数据库表。在观远数据中您可以基于数据集进行分析卡片的制作、通过智能ETL进行数据处理、创建视图数据集等。
2. 数据集使用流程
2.1 数据集创建及类型介绍
2.1.1 新建数据集
进入“数据中心”的数据集管理界面,点击右上角的“新建数据集”按钮,您可以通过多种方式接入数据,创建数据集,也可“新建文件夹”,管理多个数据集。具体方式可查看《多源数据接入》相关文档。
2.1.2 数据集类型介绍
当前观远数据平台数据集基本类型如下:
-
文件数据集:通过上传文件方式创建的Excel、CSV数据集;
-
数据库数据集
-
抽取数据集:通过抽取数据库的数据而创建的数据集;
-
直连数据集:通过直接接入数据库而创建的数据集;
ETL数据集:经过ETL智能处理后输出的数据集;
-
-
Web Service数据集:通过Web Service创建的数据集;
-
存储过程:通过接入存储过程数据而创建的数据集;
-
实时数据集:是指通过实时数据接入及融合方式而创建的数据集;
-
视图数据集:也称动态数据集,是指观远数据提供的基于SparkSQL的可参数化执行的动态数据集,可在非直连数据集上进行动态关联与计算;
-
Universe数据集:使用Universe(数据开发平台)数据创建的数据集;
-
高性能数据集:是指通过一键式数据导入ClickHouse,实现分区设定,优化查询效率,自动更新的数据集;
-
其他数据集——
-
反馈填报数据集:通过表单填报的数据创建的数据集;
-
分析结果数据集:经过数据分析输出数据结果而创建的数据集;
-
卡片数据集:是指基于某数据卡片而创建的数据集(例如:数据集a创建了卡片b,根据卡片b创建了卡片数据集c,那么c就是卡片数据集)。
-
其中,卡片数据集也可以由已经创建好的可视化图表类型的卡片直接转换生成。在仪表板页面,点击卡片右上角展开下拉菜单,选择“生成卡片数据集”,输入数据集名称、储存路径、描述信息等,点击“确定”即可。
注意:只有具有数据集编辑权限、卡片编辑权限,且为该仪表板资源的所有者能够看见“生成卡片数据集”选项。
2.1.3 数据集查询搜索
用户可以根据“名称”、“描述”、“权限”、“类型”、“更新状态”等条件,进行数据集查询搜索。
-
权限分为:我是所有者、仅是使用者;
-
类型分为:2.1.2中介绍的类型;
-
更新状态分为:排队中、更新中、更新成功、更新失败;
2.2 数据集详情页
进入“数据中心”的数据集管理界面,然后点击某一个数据集,进入数据集详情页面。在数据集的详情页面,您可以查看数据集的详细信息,设置数据集的模型结构、权限控制以及数据更新方式,以及打开制作数据卡片界面,进一步基于该数据集来制作可视化看板。以下将以 “数据库数据集”为例,向您详细介绍数据集的相关内容。
2.2.1 数据集概览
2.2.1.1 描述信息
创建数据集时,在确认数据表信息时可以添加描述信息;在数据集的详情页面,能够看到已添加的描述信息,也可进行编辑。
在数据集添加描述信息后,数据中心列表页新增了描述信息列。
使用页面左上角搜索栏时,可以切换按名称/描述/全部搜索,搜索关键词将在结果中高亮显示。
2.2.1.2 数据明细
进入数据集详情界面后,您首先看到的就是“概览”信息。观远数据支持预览数据集明细,提供1000行数据预览。在此基础上,您可以进行新建计算字段操作,点击右上方的“新建计算字段”,即可打开“计算字段编辑器”,选择函数、字段/参数,并设置新的“字段名称”。
您还可以进行分组归纳操作,具体步骤为:点击预览的右上角“新建计算字段”右侧的小箭头,打开“分组编辑器”。为您想要建立的新字段命名,选择想要分组归纳的字段和分组方式。设置未分组元素显示为“合并条目”或“单独的条目”,最后点击“保存”。
此外,还可以进行筛选数据和导出的操作(导出介绍可具体查看2.5)。
2.2.1.3 数据结构
点击“数据结构”后,您可以看到该数据集的描述信息,输入字段名进行搜索,点击编辑,然后为字段选择分组。
您还可以进行批量修改字段名操作。
具体操作为:第一步,点击“批量修改字段名称”。
第二步,点击弹窗中蓝色着重显示的“下载模版”按钮,下载Excel文档。
第三步,在Excel中维护好所需修改的字段名后,在上述弹窗中点击上传或进行拖拽上传,若格式正确,字段名无误,即可完成对字段的批量修改。修改好之后,下游引用此数据集的计算字段、ETL节点将会自动继承修改好的字段名。
第四步:新建的计算字段或分组字段的“字段公式”列会出现带有设置图标的操作框,点击即可对计算公式或分组进行编辑。
注意:非新建的计算字段或分组字段,无输入框、不能编辑。
2.2.2 数据卡片管理与制作
进入数据集的详情界面后,点击“卡片”,可以查看基于该数据集进行制作的仪表板、数据大屏等信息,还可进行多项操作。具体操作如下:
a.点击“批量切换数据集”,选择多个数据集进行切换。
b.点击右上角的“新建卡片”,直接进入可视化分析环节。
2.2.3 数据权限控制
在数据集详情页的“数据权限”界面,您可以设置是否启动列权限和行权限,并针对不同的关联用户/用户组设置不可见的字段。为了方便快速进行数据权限控制,你可以选择“调用模板”。设计好的行列权限,还可以设置是否对该数据集所有者和管理员生效。
观远数据提供细致到行列级别的权限控制,针对企业不同角色可以设置不同的用户权限,有效保障数据安全,提高管理效率,详情可查看“权限控制”相关文档。
2.2.4 模型结构
进入数据集的详情界面后,您将看到该数据集的模型结构。模型结构,是指数据集的数据层级关系与数据流转的逻辑结构,不同类型的数据集的模型结构有所差异。点击“模型结构”,即可看到该数据集的数据源、数据账户、ETL、数据库查询SQL、动态指标等模型结构信息。
以数据库数据集为例,可以查看数据库查询SQL。以ETL数据集为例,可以查看其原始数据集,在ETL详情模块还可前往查看其ETL模型信息。
以直连数据集(通过直连数据库创建的数据集)为例,点击右上角的“修改”,即可进入模型结构的调整界面:
a.选择账户:可以选择另一个数据账户,也可以新建一个数据账户。
b.选择查询表:可以输入或选择您想要查询的数据表SQL查询,也可以进行图形建模,具体操作方式与该数据集的创建过程是一致的。
2.2.5 关联创建
在数据集详情页的“关联创建”界面,您可以查看该数据集参与创建的ETL、实时数据集、视图数据集等关联信息。点击对应的ETL等,还可以直接进入该ETL的相关数据集界面展开进一步操作。
2.2.6 高级选项
在数据集详情页的“高级选项”界面,您可以将普通数据集转换为“高性能查询表”(也称高性能数据集)。(高性能数据集为付费增值服务,具体使用详情可联系您的观远顾问)。
-
普通数据集:适用于数据量小于1000万行的数据集,建议更新频率不超过每天4次。
-
高性能查询表:适用于数据量大于等于1000万行以上的数据集,可大大加速卡片端数据查询的效率,但在功能层面会有所限制,比如不能使用窗口函数。高性能查询表生成和更新需要花费更多的时间,建议更新频率不超一天一次。需要根据具体使用场景,为高性能查询表设置合适的分区字段,以便进一步优化查询效率。一般我们建议以日期字段作为分区字段。
具体操作为:点击右上角的“编辑”按钮,进入转换界面。
数据集类型,可以选择“高性能查询表”,然后配置“分区字段”与“分区方式”。
最后,点击“确认”即可开始模式切换。数据集数据量大的时候,数据导入到ClickHouse需要花费一定的时间,请耐心等候。数据集更新也会触发ClickHouse内的数据重新导入,建议高性能查询表更新频率不超过一天一次。
2.2.7 追加/替换数据
从文件导入数据的数据集,可以进行追加/替换数据的操作。数据集详情页面右上角可以选择“追加数据”或“替换数据”。更多具体操作在从文件导入数据的相关文档中已有详细说明,查看《从文件导入数据》
2.3 数据集更新
2.3.1 设置数据集的更新方式
数据集的更新方式可分为定时、实时、手动等。更新方式的设置主要有三种情况:
第一种,在新建数据集时,即可初次设置该数据集的数据更新方式,具体操作可查看《从数据库接入数据概述》。
第二种,在该数据集详情界面的“数据更新”栏目,可以对其进行修改。具体如图所示:
a.对于直连数据集类型,可以设置“缓存有效周期”为手动更新/每天/每周/每月,如为定时更新还可具体设置几时几分。勾选“支持实时卡片数据”,默认时长为1分钟。勾选“URL触发”后即可点击“复制链接”来复制URL(详细说明,查看数据更新URL触发机制)。
报错详见Disk I/O error: Failed to open HDFS file
报错详见 No such file or directory
b.对于抽取数据集类型,可以设置去重主键、增量更新、数据更新周期、URL触发等,具体操作与创建数据集时一致,可查看数据接入相关文档)。
c.对于卡片数据集类型,例如:数据集A创建了卡片B,根据卡片B创建了卡片数据集C,具体更新情况为:
-
关于卡片数据集的结构:如果卡片B修改,卡片数据集C不会自动同步,需要手动更新才会同步。
-
关于卡片数据集的数据内容:原始数据集A更新,会触发卡片数据集C的数据更新。
第三种,点击数据集详情界面右上角的“更新”按钮,手动触发数据集的即时更新(更新方式分为添加新数据、覆盖旧数据两种模式)。
可以在更多中查看数据集更新历史,记录默认保留3个月,如需保存更长时间,请联系观远工作人员进行调整。
2.3.2 设置更新任务密度图
在数据集详情页面的“数据更新”栏目,如果开通了“24h定时更新任务密度图功能”,功能开启后,当数据库连接方式为直连数据库,缓存有效周期选择每天/每周/每月时,可展示定时更新任务密度图。
-
如需使用该功能,请联系观远人员协助开启。
-
数据仅用做设置更新时间参考,与实际运行任务可能存在少许偏差,请勿用于直接统计。
同时,可以在“管理员设置-运维管理-参数配置”中,设置“1h内数据集定时更新数量限制”,系统默认为无限制。
2.3.3 设置数据集更新失败重试
由于外部数据库、网络等相关的随机因素影响,数据可能会更新失败。可在管理员设置中对“数据库数据集”进行“失败重试设置”。数据库数据集能够在自动更新失败时,第一时间进行重试,最大程度避免随机因素对于底层抽数的影响,确保业务人员的看数效率。
2.3.3.1 管理员操作
从平台右上角九宫格的菜单栏进入“管理员设置”。
在“运维管理-参数配置”处,点击右上角“编辑”,在“数据集参数设置”中找到“数据库数据集更新支持失败重试”,该功能默认为关闭状态。
点击启用该功能,可设置为5/10/15分钟三个级别的重试间隔,默认进行1次失败重试。
2.3.3.2 编辑用户操作
在数据集详情页面的“数据更新”栏目下,可启用“失败重试”功能,默认为跟随全局。
注意:当数据集层面进行设置后,优先级高于全局层面设置。
2.4 数据集管理
数据集创建完成后,若不设置存放路径,则默认会放在「数据集」的根目录下。您可以通过创建文件夹的形式,按照不同的主题或者目标来管理数据集。创建步骤如下:
a.点击右上角的“新建文件夹”;
b.在“新建文件夹”弹窗中,输入文件夹名称,然后选择文件夹放置的位置;
c.确定点击保存。
例如,我们可以通过文件夹的形式进行轻数仓的构建与管理,如图所示:
2.4.1 数据集所有者/使用者
数据集的所有者,是指对数据集具有管理权限的用户/用户组,通常为该数据集的创建者。数据集使用者,是指对该数据集具有查看和使用权限的用户/用户组。管理数据集所有者/使用者,有以下两个入口:
入口一:点击数据集操作栏的“…”按钮,可以管理该数据集的所有者和使用者。选择“使用者管理”,可授权新的使用者,或移除已授权的使用者。“所有者管理”界面和操作方法与之类似。不同之处在于,所有者不允许添加只读用户。
-
所有者一般为数据集创建者,所有者可以将该数据集分享给其他用户使用,该用户即成为使用者。
-
使用者仅有该数据集的使用权限,无法对数据集本身进行增删改相关操作。
入口二:点击某个数据集,可进入该数据集详情页面。点击所有者和使用者后面的“+”按钮,弹出管理窗格,可授权新的所有者、使用者,或移除已授权的所有者、使用者。
数据集的所有者与使用者权限异同
数据集资源的权限分为所有者和使用者。
数据集的所有者,可以对数据集批量更新、移动、删除等。
数据集的访问者,可以使用数据集创建卡片和ETL,同时可以浏览数据集的基础信息,但无法修改。
详细说明如下表:
2.4.2 数据集删除
数据集文件夹和数据集的右侧操作栏,均可点击“删除”按钮,将数据集文件夹或数据集进行删除。需要注意的是,如果想要删除某个文件夹,需要先将该文件夹下的数据集全部删除,再进行操作,即非空文件夹不能删除。
2.5 数据集另存为
管理员操作:
第一步,在BI系统界面右上角九宫格图标后,点击“管理员设置”,在“系统管理”中选择“高级设置”。
第二步,在“其他”类目下开启允许数据集另存为按钮。
特别注意:
-
管理员天然支持“另存为”,只有数据集的所有者且有数据账户的使用权/所有权允许“另存为”操作(仅数据账户类型的数据集)。
-
用户“另存为”之后,该用户默认为该数据集的所有者。
-
若管理员关闭了允许数据集“另存为”按钮,则“另存为”功能入口不展示。
数据集所有者(且有数据账户的使用权/所有权)操作:
第一步,在数据中心中选择数据集。进入数据集列表页或数据集详情页,进行“另存为”操作。
第二步,点击“另存为”后,填写新数据集名称和“另存为”目录即可。
数据集“另存为”之后的操作:
-
数据集名称:XXXXX_副本(同路径下不允许重名)。
-
保存位置:
-
默认为当前数据集所在目录内;
-
可以保存在有权限的文件夹(有使用权或者所有权的文件夹)。
另存为需要携带的内容:
-
新建计算字段;
-
数据结构、注释等信息;
-
模型结构;
-
数据权限;
-
数据更新策略。
-
支持范围
目前,允许文件数据集、ETL输出数据集、数据库、卡片数据集、Web Service、账户数据集、FTP/SFTP 数据集、存储过程、填报数据集、实时数据集、视图数据集、Universe 数据集进行“另存为”。
2.6 数据集导出
2.6.1 数据集导出
进入“数据中心”的“数据集”列表界面,可以进行数据集的导出,主要有以下两个入口:
入口一:选中某一个数据集,点击右侧的“数据集导出”按钮,导出CSV格式的数据集。
入口二:点击数据集,进入数据集详情界面。点击“导出”按钮,将该数据集以CSV格式导出。
注意:
a.数据集导出的格式默认为CSV文件;
b.若无数据集的所有权,则不允许导出数据。
报错详见 The maximum length of cell contents (text) is 32,767 characters
2.6.2 数据集筛选导出
在数据集详情页的预览中,支持对预览数据进行筛选。如果设置了筛选条件,则点击“导出”会导出筛选后的数据;如果没有设置任何筛选条件,则点击“导出”会导出原数据集内容。
具体有两种筛选方式:
方式一:设置具体的筛选规则:
a.点击右上角的“筛选数据”,进入“筛选规则”编辑弹窗,点击“新建”;
b.进入“规则编辑器”,选择字段;然后根据页面提示,对筛选类型(共3种类型:自动、选择、范围)进行设置。
方式二:点击“筛选数据”右边的小箭头,选择“选择列”,即可勾选想要导出的列。
2.7 数据清理
对数据集中的数据设置一定的清理规则,只保留符合一定规则的数据,过滤掉不满足需求的数据,可以高效获得符合需求的数据。进入数据集详情页面后,点击右上角的“···”操作栏,点击“数据清理”,即可进行操作。
a.打开数据清理弹窗后,点击“新建”按钮,即可进入“规则编辑器”。
b.在“规则编辑器”中,选择字段,然后选择规则类型,设置清理的规则。
c.点击预览,可查看“待清理数据预览”,确认无误后点击“确定”。
需要注意的是,实时数据集、视图数据集、直连数据集不支持进行数据清理,其他从文件导入数据、数据库接入数据的数据集,支持数据清理。
2.8 数据集迁移
数据集支持从测试环境迁移到生产环境,此操作限管理员可用。具体介绍可前往《一键迁移》了解。