多源数据接入概述
1. 概述
针对企业零散多态的多源异构数据,观远BI提供完善的数据接入能力。通过统一数据口径,沉淀拥有数据全貌的数据池,打破数据孤岛现象。
观远目前支持通过JDBC、API对接、远程文件服务对接的方式接入数据库、业务应用系统、文件等各类数据,提供多源数据的整合方案。
2. 新手入门
概念说明:
连接器是连接不同数据源和数据处理平台的工具,确保数据集能够被正确访问和使用,连接器支持多样化的数据源类型。
而数据集是存储和管理数据的基本单位,通过连接器,用户可以从各种数据源中获取数据并形成“数据集”,数据集可被观远 BI 用于各类计算分析和处理。
2.1. 核心流程
1. 选择数据账户:观远BI提供多种连接器,包括数据库类、文件类和各类应用类数据源。用户可根据数据源类型进行筛选,选择有权限的数据账户。
说明:系统部署时,支持对不需要的数据连接方式进行隐藏,只展示所需连接器。
2. 选择数据表:成功连接数据账户后,用户将看到数据账户中的可用数据表,并从中选择一个或多个数据表进行操作。可以是文件的sheet页或数据库中的表等,具体页面视不同的数据源而定(或可能不出现此步骤)。
3. 数据连接及更新设置:用户需配置数据连接的详细设置,包括连接方式(直连或抽取)、调度状态和数据更新周期等。不同数据库类型和连接方式的选择会影响配置选项,用户通过这些设置实现数据的准确高效更新。
4. 确认数据表信息:最后,用户需确认所选数据表的字段信息,查看并编辑字段名称、数据类型等属性,确保数据表信息与预期一致,保障数据接入后的正确解析和展示。
2.2. 学习路径
分类 | 接入数据源类型 | 说明 |
文件类 | 提供从Excel、CSV等文件导入数据,并进行数据处理的服务。 | |
支持与飞书电子表格进行集成,使用户能够无缝地将飞书电子表格中的数据导入与同步,形成在线文档数据集。 | ||
支持接入远程文件存储服务器中的文件数据,如:FTP/SFTP 、ADSL Gen2。 | ||
数据库类 | 支持连接多种数据库,包括但不限于MySQL、PostgreSQL、 Greenplum、 SQL Server、 Oracle等 40+ 数据库;并且还支持自助式对接云厂商、国产化等外部数据库。 | |
支持与Oracle、MySQL、SQLServer等存储过程进行集成,通过参数化拉取的方式进行创建,并提供页面端对存储过程数据集进行参数化动态查询数据的功能。 | ||
应用类 | 通过Web Service将API数据接入,支持自定义灵活配置API返回数据的解析规则和选取所需字段。 | |
支持常用OA系统中同步获取账户数据,通过账户同步实现企业OA系统与观远数据分析平台之间的账户数据无缝对接,目前支持企业微信、钉钉、LDAP、飞书等。 | ||
观远BI支持以卡片作为数据源来创建数据集,从卡片创建数据集可将卡片分析结果用于进一步数据处理和分析。 | ||
观远BI支持用户从 Universe 数据库进行数据源接入。 | ||
是基于SparkSQL的可参数化执行的动态数据集,用户将1个或多个非直连数据集(实时数据集除外)进行动态关联与计算,重新整合为新的数据集。 | ||
提供多终端数据采集的表单录入(又名表单录入)功能,用户可直接通过观远BI进行数据填报,包括模板维护与收集汇总等工作。采集到的填报类数据可快速接入观远数据的BI分析平台进行后续可视化分析,形成反馈收集-ETL-数据展现的闭环。 |