跳到主要内容
版本:6.0.0

MongoDB 数据接入

1. 从MongoDB接入数据概述

从MongoDB接入数据,是指观远数据提供的从MongoDB这一数据库类型进行接入数据的服务。观远数据针对MongoDB专门开发了MongoDB数据连接器,用来支持对MongoDB的直接连接。MongoDB内通常存在一些List、Json类型的半结构化数据,无法使用标准的SQL进行查询,而将MongoDB内数据导入至Guan-Index中,再通过Smart ETL进一步加工处理是一种比较好的使用方式。

2. 从MongoDB接入数据操作步骤

2.1 创建MongoDB数据连接账户

进入数据中心的数据账户界面,点击右上角“+新建数据账户”。在添加账户弹窗中,账户平台框选择“MongoDB”。连接方式可以选择“指定数据库”或“Connection URL”两种。同时也可以根据实际情况,在不填写“用户名”与“密码”的情况下创建连接。

确认信息填写无误后,点击“测试连接”,显示“连接成功”,则点击“确认”创建好一个MongoDB数据连接账户。

2.2 创建MongoDB数据集

2.2.1 选择连接器

进入数据中心>数据集,点击“+新建数据集”,选择“数据库”。在“选择连接器”中选中“MongoDB”,点击下一步。

2.2.2 选择数据表

选择一个已建好的MongoDB账户,左侧列出该账户下可见的数据表。选择其中一张表,系统会根据这张表中前100行数据自动生成字段信息。若有些字段您并不想要抽取上来,可以选择删除若干。

若前100行数据中未包含您想要的字段,您也可以通过新建字段来自行添加字段信息。字段类型也可自行指定。

若想对抽取的数据进行一些筛选,您可以按字段添加若干筛选条件。配置完成后点击“预览”,可以查看到获得的预览数据。

2.2.3 更新设置

MongoDB仅支持Guan-Index模式。您可以为MongoDB数据集设置“去重主键”和“增量更新”。“增量更新”仅需设置筛选条件即可,比如选择日期为“昨天”。

在数据更新周期的设置中,您可以选择手动更新/每天/每周/每月更新,当选择定时更新,还可以设定几时几分的具体时间。

2.2.4 确认数据表信息

填写“数据集名称”,选择保存的位置。此时如果需要重命名字段,可以点击字段右侧的小箭头进行设置。最后点击“确认新建”。

2.3 使用MongoDB数据集

MongoDB数据集与一般的Guan-Index数据集没有太多差别,您可以直接使用MongoDB数据集创建卡片或ETL。值得注意的是,若数据集中带有非结构化的数组、JSON字段时,因其是以文本的形式存储的,若需要进行加工转换处理,可能需要使用到Spark中JSON相关的函数。

3. 名词解释

MongoDB

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。