数据脱敏
温馨提示:此产品模块为增值模块,如需试用体验请联系观远数据商务人员或客户成功经理(通常是贵公司当前的服务交流负责人)。
1. 产品概述
数据脱敏,是指观远数据能够对某些敏感信息通过脱敏规则进行数据的变形,从而实现对敏感隐私数据的保护。例如在涉及客户安全数据或者一些商业性敏感数据的情况下,如身份证号、手机号、卡号、客户号等个人信息,可对其进行数据脱敏,解决其在非可信环境中的使用问题,提高数据应用的合规性。
温馨提示:此产品模块为增值模块,如需试用体验请联系观远数据商务人员或客户成功经理(通常是贵公司当前的服务交流负责人)。
2. 产品功能
产品功能 | 功能介绍 | 使用角色 |
数据脱敏标签设置 | 在系统管理-高级设置-数据脱敏标签设置处,配置数据脱敏标签,数据脱敏标签作为连接探测规则和脱敏规则间的桥梁 | 管理员 |
脱敏配置 | 在新建数据集时,数据集详情页-数据安全,模型结构页面,可以配置数据集敏感标识、数据集字段脱敏规则、脱敏关联用户 | 管理员、数据集所有者 |
数据脱敏模版 | 在数据安全模版-数据脱敏模版页面配置脱敏规则模版及关联用户 | 管理员、安全模板编辑者 |
探测规则 | 在数据安全模版-数据探测规则页面配置执行智能探测依据的探测规则,包括字段名探测,内容探测,混合探测,可使用“全等”“包含”“正则” | 管理员 |
智能探测 | 在新建数据集时,数据集详情页-数据安全,模型结构页面,可以进行手工探测,若开启强制探测,则执行强制探测 | 管理员、数据集所有者 |
3. 产品优势
3.1 产品价值
降低敏感数据泄密风险
包含姓名、年龄、手机号、银行帐号等敏感信息的数据,通过脱敏手段变成符合数据使用场景的非敏感数据,使敏感信息保持在可控业务系统内部,明显降低敏感数据泄漏风险。
符合监管部门法规要求
无论是最高规格的法律,政府机构的法规、政策,还是各行业的规范、指南、指导意见等,都对包含个人信息在内的各类敏感数据提出了安全要求,数据脱敏可以帮助企事业在数据安全上更进一步,保证安全合规。
提升分析工作效率
改变以往针对底层数据库的传统脱敏方式,大大减少脱敏所需时间,提升数据的交付效率。利用动态脱敏,快速响应脱敏需求。使数据脱敏工作不再成为分析项目进度的瓶颈,促进缩短项目周期,提升业务需求方的满意度。
探测敏感数据,安全应用数据
统一化数据安全管理,通过提前配置探测和脱敏规则,让数据处理者、分析者、查看者都可以在企业信息安全管控范围内更好地使用数据,放大数据价值的同时兼顾数据安全规范。
3.2 产品优势
从产品使用的角度而言,观远数据的数据脱敏能够实现对数据的动态脱敏,具有高兼容性,高灵活性和高易用性。
优势 | 说明 |
更兼容 | 兼顾了数据安全与数据使用,脱敏后的数据依然可用于分析和测试 |
更灵活 | 可细化到对每一个使用者配置不同的权限 |
更易用 | 智能探测:对匹配字段名进行数据探测,识别出的敏感字段进行预览标识 |
脱敏模版:提供高可复制性和更好的管控效果报告 |
4. 使用步骤
4.1 功能启用
(一)“智能探测”和“标记为敏感数据集”功能
1. 手动模式
用户可在操作页面中自行启用或关闭相关开关。
2. 强制模式
2. 强制模式
用户可在“管理中心-系统管理-高级设置”页面的数据安全板块,打开“允许”新建数据集时自动探测并依据结果进行标记的按钮,开启后可强制对新建数据集和修改模型结构进行探测,并根据探测结果标记数据集敏感类型。
开启后在新建数据集时效果如下,提示系统管理员已开启对所有新建数据集执行“智能探测”,并根据探测结果进行敏感标记。
(二)“数据脱敏”功能
(二)“数据脱敏”功能
数据脱敏功能设置后端开关,可用k8s控制功能整体的开启和关闭,从而能够选择性使用数据脱敏整体功能,在突发情况下可关闭此功能。
开启后,可使用所有脱敏相关功能;
关闭后系统不再对任何用户进行脱敏权限判断,也不对数据集做敏感类型识别,但是对于数据集和用户,原先已有的敏感配置保存,再次开启后可使用。
4.2 数据脱敏触发
4.2.1 新建数据集
(1)具体操作
步骤一:新建数据集
在“数据准备-数据集”页面,进行“新建数据集”操作。
数据脱敏目前可支持范围:文件数据集、数据库数据集、卡片数据集、Universe数据集、ETL输出数据集。
步骤二:智能探测并标记为敏感数据集
手动模式
点击“智能探测”按钮,识别数据集中是否含有敏感字段,识别完成后右上角会弹出完成窗口。
勾选“标记为敏感数据集”按钮,即可完成标记。
强制模式
强制模式下,新建数据集时自动进行智能探测,根据探测结果对数据集进行标记,同时不可修改数据集的敏感类型。
4.2.2 修改模型结构
(1)手动模式
手动模式下,数据集模型结构修改时,可以重新进行智能探测,也可以变更数据集的敏感类型。
(2)强制模式
强制模式下,数据集模型结构默认自动进行智能探测,同时不可进行修改或者取消。
4.2.3 数据安全详情页
(1)具体操作
步骤一:探测数据集的敏感字段
打开“数据安全-数据脱敏”页面,勾选“标记为敏感数据集”按钮。
点击“智能探测”按钮,开始数据探测。
探测后会用黄色感叹号标出敏感字段,并将探测出的字段置于前方。
步骤二:改变数据集的敏感类型
点击标题字段右侧的盾牌按钮,在弹出的脱敏设置框内进行“遮盖脱敏”、“哈希脱敏”敏感类型设置。(具体设置操作见该文档4.3.1 字段脱敏规则配置)
(2)敏感数据集标签
1.敏感数据集未脱敏
当数据集为敏感数据集未脱敏时,数据集后面贴上红色标签,该类型数据集不可直接用于卡片创建。
2.敏感数据集已脱敏
当数据集进行了任一字段的脱敏规则配置,数据集会被主动判定为敏感数据集已脱敏。
(3)其他说明
数据集另存为支持携带数据集敏感标识;
ETL数据集级别敏感标识继承,支持根据输入数据集敏感标识,自动在第一次运行生成输出数据集时,对输出数据集自动设置敏感标签。
4.3 数据脱敏规则配置
4.3.1 字段脱敏规则配置
在操作过程中,支持用户对敏感字段设置不同的脱敏规则,从而实现不同的脱敏效果。
(1)具体操作
步骤一:点击表格标题字段右侧的盾牌按钮,在脱敏设置框内进行“不脱敏”、“遮盖脱敏”、“哈希脱敏”设置选择。
步骤二:若选择“遮盖脱敏”设置,则需再对脱敏部分进行替换符号、遮盖与保留部分和字段脱敏位置的设置。
遮盖效果
保留效果
步骤三:点击“应用”按钮,即可完成数据脱敏。
(2)效果展示
遮盖脱敏
哈希脱敏
4.3.2 关联用户权限配置
在操作过程中,支持用户对脱敏字段的应用范围进行配置。
应用范围设置包含:用户/用户组,生效/不生效,查看及导出生效/仅导出生效设置等。
(1)具体操作
步骤一:在“数据安全-数据脱敏”页面的配置关联用户/用户组,点击“新增”按钮。
步骤二:在关联用户编辑器中进行相关配置,点击“确定”按钮,则实现对脱敏字段的应用范围配置。
注:若选择不进行配置,则默认为对所有用户查看/导出均脱敏。
(2)其他说明
当数据集另存为时,支持携带数据集已配置的敏感字段。
4.4 数据脱敏模版
4.4.1 模版配置
(1)具体操作
步骤一:新增脱敏模版
打开“数据准备-数据安全模版-数据脱敏模版”页面,点击“新增脱敏模版”按钮。
步骤二:配置相关内容
1.新增模板包含模板名称、模版内容、配置关联用户/用户组。
2.点击模版内容的“新增”按钮,进行脱敏编辑器窗口配置,完成后点击“确定”按钮。
填写字段名称
下拉选择敏感字段标签(选填)
下拉选择规则“遮盖脱敏”“哈希脱敏(SHA1)”
选择脱敏部分数据替换符号
下拉选择“保留”“遮盖”及自“ ”至“ ”位
3.点击配置关联用户/用户组的“新增”按钮,进行关联用户编辑器配置。(同4.3.2 关联用户权限配置)
(2)脱敏模版排序
步骤一:点击右上角“排序按钮”,进入排序页面。
步骤二:鼠标浮于按钮,即可上下拖动排序,排序后调用模版时会按此处的排序优先展示。
4.4.2 模版使用
(1)具体操作
步骤一:在“数据安全-数据脱敏”页面,点击“调用模版”按钮。
步骤二:进行模版调用的选择,并点击“确定”按钮。
调用数据脱敏模版后,数据集不可再单独配置字段脱敏规则,而是会根据模板规则的变动而变动。
(2)其他说明
1.若想在调用模版的基础上进行自定义配置,可以启用自定义编辑,此时会将模版规则复制一份到现有数据集,并在此基础上编辑。
2.可在脱敏模版应用页批量将模版应用于数据集或取消应用。
4.5 数据脱敏标签配置
(1)使用背景
当发生数据质量一般,例如同一字段存在多种字段名的情况时,可以通过对敏感字段进行打标签的方式,将探测规则与脱敏模版中的脱敏规则关联起来,从而减小该场景下在使用脱敏模版时的配置复杂度。
例如:当系统中“身份证号”这个字段在多个数据集中的命名不同时(如:“身份证”、“identity card”、“ID card num”、“证件号”等等),即可对“身份证号”进行标签设置。
(2)具体操作
步骤一:打开“管理中心-系统管理-高级设置-敏感字段标签设置”页面,点击“新增按钮”。
步骤二:输入敏感字段标签,点击“确定”按钮。
4.6 探测规则配置
(1)具体操作
步骤一:打开“数据准备-数据安全模版-探测规则”页面,点击“新增规则”按钮。
步骤二:进行相关规则配置,并点击“确认”按钮。
(2)配置说明
支持字段名探测、内容探测、混合探测三种规则类型方式配置。
“字段名探测”和“混合探测”可以配置“等于”或“包含”某个字符串;
“内容探测”除“等于”和“包含”外,还可以配置“正则”匹配。
2.支持探测规则的编辑,启用/禁用,删除等功能。
3.支持配置数据脱敏标签,用于探测后根据数据脱敏标签匹配模板中的脱敏规则。
(3)探测规则应用
新建数据集、修改模型结构、生成ETL输出数据集、数据集详情页均会在智能探测时应用已启用的探测规则。
探测时支持字段名全等匹配、内容匹配(抽每个字段前100行,匹配率达80%则认定为敏感字段)。
5. 名词解释
名词 | 具体解释 |
敏感字段 | 被系统判定为携带敏感信息的字段,此时还未对字段执行脱敏处理 |
脱敏字段 | 进行过数据脱敏的字段,此时已对字段执行了脱敏处理 |
脱敏规则 | 对字段执行脱敏的规则,目前支持遮盖脱敏、哈希脱敏 |
脱敏模版 | 将若干脱敏规则组织为一套脱敏模版,既可以提高逐个配置字段脱敏规则的效率,又可以根据公司敏感规则的变更进行统一变更 |
数据集敏感标识 | 执行智能探测后,系统会根据探测结果是否包含敏感字段,对数据集进行打标,分为敏感数据集已脱敏,敏感数据集未脱敏,非敏感数据集三种 |
ETL首次运行敏感标识继承 | ETL在首次运行时,会根据输入数据集类型,对输出数据集进行输出数据集敏感类型的打标 |
智能探测 | 根据系统内置的探测规则,对敏感数据执行手动或强制探测的过程,可以发生在新建数据集/生成ETL/打开详情页时 |
强制探测 | 基于一些企业强管控的需求,智能探测可以配置为强制执行 |
数据脱敏标签 | 敏感数据的识别规则,用以判断哪些数据需要进行脱敏。识别规则某种程度上,可以理解为对字段打上敏感的标签 |
哈希算法 | 哈希算法(散列算法或者消息摘要算法)是信息存储和查询所用的一项基本技术,它是一种基于Hash函数的文件构造方法,可实现对记录的快速随机存取。它把给定的任意长关键宇映射为一个固定长度的哈希值,一般用于鉴权、认证、加密、索引等。其主要优点是运算简单,预处理时间较短,内存消耗低,匹配查找速度比较快,便于维护和刷新,支持匹配规则数多等 |
静态脱敏 | 静态脱敏是指对敏感数据进行脱敏处理后,将脱敏后的数据存储到指定的数据库位置 |
动态脱敏 | 动态脱敏,是指用户在查询敏感数据时在页面展示脱敏后的数据,一般是业务方通过接口调用脱敏规则对展示的数据进行脱敏加工 |
k8s | 全称kubernetes,是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes提供了应用部署、规划、更新、维护的一种机制 |
说明:此模块为增值功能,如需体验请联系观远数据商务人员。