跳到主要内容
版本:5.9.0

数据脱敏

1. 产品概述

数据脱敏,是指观远数据能够对某些敏感信息通过脱敏规则进行数据的变形,从而实现对敏感隐私数据的保护。例如在涉及客户安全数据或者一些商业性敏感数据的情况下,如身份证号、手机号、卡号、客户号等个人信息,可对其进行数据脱敏,解决其在非可信环境中的使用问题,提高数据应用的合规性。

温馨提示:此产品模块为增值模块,如需试用体验请联系观远数据商务人员或客户成功经理(通常是贵公司当前的服务交流负责人)。

2. 产品功能

产品功能功能介绍使用角色
数据脱敏标签设置在系统管理-高级设置-数据脱敏标签设置处,配置数据脱敏标签,数据脱敏标签作为连接探测规则和脱敏规则间的桥梁管理员
脱敏配置在新建数据集时,数据集详情页-数据安全,模型结构页面,可以配置数据集敏感标识、数据集字段脱敏规则、脱敏关联用户管理员、数据集所有者
数据脱敏模版在数据安全模版-数据脱敏模版页面配置脱敏规则模版及关联用户管理员、安全模板编辑者
探测规则在数据安全模版-数据探测规则页面配置执行智能探测依据的探测规则,包括字段名探测,内容探测,混合探测,可使用“全等”“包含”“正则”管理员
智能探测在新建数据集时,数据集详情页-数据安全,模型结构页面,可以进行手工探测,若开启强制探测,则执行强制探测管理员、数据集所有者

3. 产品优势

3.1 产品价值

  • 降低敏感数据泄密风险

包含姓名、年龄、手机号、银行帐号等敏感信息的数据,通过脱敏手段变成符合数据使用场景的非敏感数据,使敏感信息保持在可控业务系统内部,明显降低敏感数据泄漏风险。

  • 符合监管部门法规要求

无论是最高规格的法律,政府机构的法规、政策,还是各行业的规范、指南、指导意见等,都对包含个人信息在内的各类敏感数据提出了安全要求,数据脱敏可以帮助企事业在数据安全上更进一步,保证安全合规。

  • 提升分析工作效率

改变以往针对底层数据库的传统脱敏方式,大大减少脱敏所需时间,提升数据的交付效率。利用动态脱敏,快速响应脱敏需求。使数据脱敏工作不再成为分析项目进度的瓶颈,促进缩短项目周期,提升业务需求方的满意度。

  • 探测敏感数据,安全应用数据

统一化数据安全管理,通过提前配置探测和脱敏规则,让数据处理者、分析者、查看者都可以在企业信息安全管控范围内更好地使用数据,放大数据价值的同时兼顾数据安全规范。

3.2 产品优势

从产品使用的角度而言,观远数据的数据脱敏能够实现对数据的动态脱敏,具有高兼容性,高灵活性和高易用性。

优势说明
更兼容兼顾了数据安全与数据使用,脱敏后的数据依然可用于分析和测试
更灵活可细化到对每一个使用者配置不同的权限
更易用智能探测:对匹配字段名进行数据探测,识别出的敏感字段进行预览标识
脱敏模版:提供高可复制性和更好的管控效果报告

4. 使用步骤

4.1 功能启用

(一)“智能探测”和“标记为敏感数据集”功能

1. 手动模式

用户可在操作页面中自行启用或关闭相关开关。

2. 强制模式

2. 强制模式

用户可在“管理员设置-系统管理-高级设置”页面的数据安全板块,打开“允许”新建数据集时自动探测并依据结果进行标记的按钮,开启后可强制对新建数据集和修改模型结构进行探测,并根据探测结果标记数据集敏感类型。

开启后在新建数据集时效果如下,提示系统管理员已开启对所有新建数据集执行“智能探测”,并根据探测结果进行敏感标记。

(二)“数据脱敏”功能

(二)“数据脱敏”功能

数据脱敏功能设置后端开关,可用k8s控制功能整体的开启和关闭,从而能够选择性使用数据脱敏整体功能,在突发情况下可关闭此功能。

  • 开启后,可使用所有脱敏相关功能;

  • 关闭后系统不再对任何用户进行脱敏权限判断,也不对数据集做敏感类型识别,但是对于数据集和用户,原先已有的敏感配置保存,再次开启后可使用。

4.2 数据脱敏触发

4.2.1 新建数据集

(1)具体操作

步骤一:新建数据集

在“数据中心-数据集”页面,进行“新建数据集”操作。

数据脱敏目前可支持范围:文件数据集、数据库数据集、卡片数据集、Universe数据集、ETL输出数据集。

步骤二:智能探测并标记为敏感数据集

手动模式

  • 点击“智能探测”按钮,识别数据集中是否含有敏感字段,识别完成后右上角会弹出完成窗口。

  • 勾选“标记为敏感数据集”按钮,即可完成标记。

  • 强制模式

 强制模式下,新建数据集时自动进行智能探测,根据探测结果对数据集进行标记,同时不可修改数据集的敏感类型。

4.2.2 修改模型结构

(1)手动模式

手动模式下,数据集模型结构修改时,可以重新进行智能探测,也可以变更数据集的敏感类型。

(2)强制模式

强制模式下,数据集模型结构默认自动进行智能探测,同时不可进行修改或者取消。

4.2.3 数据安全详情页

(1)具体操作

步骤一:探测数据集的敏感字段

  • 打开“数据安全-数据脱敏”页面,勾选“标记为敏感数据集”按钮。

  • 点击“智能探测”按钮,开始数据探测。

  • 探测后会用黄色感叹号标出敏感字段,并将探测出的字段置于前方。

步骤二:改变数据集的敏感类型

  • 点击标题字段右侧的盾牌按钮,在弹出的脱敏设置框内进行“遮盖脱敏”、“哈希脱敏”敏感类型设置。(具体设置操作见该文档4.3.1 字段脱敏规则配置)

(2)敏感数据集标签

1.敏感数据集未脱敏

当数据集为敏感数据集未脱敏时,数据集后面贴上红色标签,该类型数据集不可直接用于卡片创建。

2.敏感数据集已脱敏

当数据集进行了任一字段的脱敏规则配置,数据集会被主动判定为敏感数据集已脱敏。

(3)其他说明

  • 数据集另存为支持携带数据集敏感标识;

  • ETL数据集级别敏感标识继承,支持根据输入数据集敏感标识,自动在第一次运行生成输出数据集时,对输出数据集自动设置敏感标签。

4.3 数据脱敏规则配置

4.3.1 字段脱敏规则配置

在操作过程中,支持用户对敏感字段设置不同的脱敏规则,从而实现不同的脱敏效果。

(1)具体操作

步骤一:点击表格标题字段右侧的盾牌按钮,在脱敏设置框内进行“不脱敏”、“遮盖脱敏”、“哈希脱敏”设置选择。

步骤二:若选择“遮盖脱敏”设置,则需再对脱敏部分进行替换符号、遮盖与保留部分和字段脱敏位置的设置。

  • 遮盖效果

  • 保留效果

步骤三:点击“应用”按钮,即可完成数据脱敏。

(2)效果展示

  • 遮盖脱敏

  • 哈希脱敏

4.3.2 关联用户权限配置

在操作过程中,支持用户对脱敏字段的应用范围进行配置。

应用范围设置包含:用户/用户组,生效/不生效,查看及导出生效/仅导出生效设置等。

(1)具体操作

步骤一:在“数据安全-数据脱敏”页面的配置关联用户/用户组,点击“新增”按钮。

步骤二:在关联用户编辑器中进行相关配置,点击“确定”按钮,则实现对脱敏字段的应用范围配置。

注:若选择不进行配置,则默认为对所有用户查看/导出均脱敏。

(2)其他说明

当数据集另存为时,支持携带数据集已配置的敏感字段。

4.4 数据脱敏模版

4.4.1 模版配置

(1)具体操作

步骤一:新增脱敏模版

打开“数据中心-数据安全模版-数据脱敏模版”页面,点击“新增脱敏模版”按钮。

步骤二:配置相关内容

1.新增模板包含模板名称、模版内容、配置关联用户/用户组。

2.点击模版内容的“新增”按钮,进行脱敏编辑器窗口配置,完成后点击“确定”按钮。

  • 填写字段名称

  • 下拉选择敏感字段标签(选填)

  • 下拉选择规则“遮盖脱敏”“哈希脱敏(SHA1)”

  • 选择脱敏部分数据替换符号

  • 下拉选择“保留”“遮盖”及自“ ”至“ ”位

3.点击配置关联用户/用户组的“新增”按钮,进行关联用户编辑器配置。(同4.3.2 关联用户权限配置)

(2)脱敏模版排序

步骤一:点击右上角“排序按钮”,进入排序页面。

步骤二:鼠标浮于按钮,即可上下拖动排序,排序后调用模版时会按此处的排序优先展示。

4.4.2 模版使用

(1)具体操作

步骤一:在“数据安全-数据脱敏”页面,点击“调用模版”按钮。

步骤二:进行模版调用的选择,并点击“确定”按钮。

调用数据脱敏模版后,数据集不可再单独配置字段脱敏规则,而是会根据模板规则的变动而变动。

(2)其他说明

1.若想在调用模版的基础上进行自定义配置,可以启用自定义编辑,此时会将模版规则复制一份到现有数据集,并在此基础上编辑。

2.可在脱敏模版应用页批量将模版应用于数据集或取消应用。

4.5 数据脱敏标签配置

(1)使用背景

当发生数据质量一般,例如同一字段存在多种字段名的情况时,可以通过对敏感字段进行打标签的方式,将探测规则与脱敏模版中的脱敏规则关联起来,从而减小该场景下在使用脱敏模版时的配置复杂度。

例如:当系统中“身份证号”这个字段在多个数据集中的命名不同时(如:“身份证”、“identity card”、“ID card num”、“证件号”等等),即可对“身份证号”进行标签设置。

(2)具体操作

步骤一:打开“管理员设置-系统管理-高级设置-敏感字段标签设置”页面,点击“新增按钮”。

步骤二:输入敏感字段标签,点击“确定”按钮。

4.6 探测规则配置

(1)具体操作

步骤一:打开“数据中心-数据安全模版-探测规则”页面,点击“新增规则”按钮。

步骤二:进行相关规则配置,并点击“确认”按钮。

(2)配置说明

支持字段名探测、内容探测、混合探测三种规则类型方式配置。

  • “字段名探测”和“混合探测”可以配置“等于”或“包含”某个字符串;

  • “内容探测”除“等于”和“包含”外,还可以配置“正则”匹配。

2.支持探测规则的编辑,启用/禁用,删除等功能。

3.支持配置数据脱敏标签,用于探测后根据数据脱敏标签匹配模板中的脱敏规则。

(3)探测规则应用

  • 新建数据集、修改模型结构、生成ETL输出数据集、数据集详情页均会在智能探测时应用已启用的探测规则。

  • 探测时支持字段名全等匹配、内容匹配(抽每个字段前100行,匹配率达80%则认定为敏感字段)。

5. 名词解释

名词具体解释
敏感字段被系统判定为携带敏感信息的字段,此时还未对字段执行脱敏处理
脱敏字段进行过数据脱敏的字段,此时已对字段执行了脱敏处理
脱敏规则对字段执行脱敏的规则,目前支持遮盖脱敏、哈希脱敏
脱敏模版将若干脱敏规则组织为一套脱敏模版,既可以提高逐个配置字段脱敏规则的效率,又可以根据公司敏感规则的变更进行统一变更
数据集敏感标识执行智能探测后,系统会根据探测结果是否包含敏感字段,对数据集进行打标,分为敏感数据集已脱敏,敏感数据集未脱敏,非敏感数据集三种
ETL首次运行敏感标识继承ETL在首次运行时,会根据输入数据集类型,对输出数据集进行输出数据集敏感类型的打标
智能探测根据系统内置的探测规则,对敏感数据执行手动或强制探测的过程,可以发生在新建数据集/生成ETL/打开详情页时
强制探测基于一些企业强管控的需求,智能探测可以配置为强制执行
数据脱敏标签敏感数据的识别规则,用以判断哪些数据需要进行脱敏。识别规则某种程度上,可以理解为对字段打上敏感的标签
哈希算法哈希算法(散列算法或者消息摘要算法)是信息存储和查询所用的一项基本技术,它是一种基于Hash函数的文件构造方法,可实现对记录的快速随机存取。它把给定的任意长关键宇映射为一个固定长度的哈希值,一般用于鉴权、认证、加密、索引等。其主要优点是运算简单,预处理时间较短,内存消耗低,匹配查找速度比较快,便于维护和刷新,支持匹配规则数多等
静态脱敏静态脱敏是指对敏感数据进行脱敏处理后,将脱敏后的数据存储到指定的数据库位置
动态脱敏动态脱敏,是指用户在查询敏感数据时在页面展示脱敏后的数据,一般是业务方通过接口调用脱敏规则对展示的数据进行脱敏加工
k8s全称kubernetes,是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes提供了应用部署、规划、更新、维护的一种机制

说明:此模块为增值功能,如需体验请联系观远数据商务人员。