胡律师:13306647218

如何克服大数据安全性!如何有效降低大数据平台安全风险

时间:2021-07-13 12:54:50

在2019杭州云起会议大数据企业服务专场上,阿里巴巴云智能计算平台事业部高级技术专家李雪峰做了题为《如何有效降低大数据平台安全风险》的演讲。本文首先总结了企业在大数据云过程中的安全顾虑。然后,在大数据平台需要应对的安全风险中,详细介绍了数据中心的物理安全和网络安全、大数据平台的系统安全和数据应用安全。最后,描述了阿里云菲天达数据平台的安全体系。

以下是精彩的视频内容安排:

企业大数据上云的安全顾虑

在企业大数据走向云端的过程中,通常会存在一些安全隐患。当数据在企业内部的云上迁移时,是否有可能丢失数据?当数据存储在云上时,数据有可能被篡改吗?当数据在云中使用时,数据有可能被泄露吗?这些关切来自信息的基本要素,包括信息的可能性、信息的完整性和信息安全的保密性。这三个问题并不是数据上云造成的。此外,当您在企业中构建自己的大数据中心时,仍然会遇到安全问题。

如何有效降低大数据平台安全风险

上图为大数据平台安全风险框架。企业级大数据中心存在三个级别的安全风险。第一个层次是数据中心的物理安全和网络安全。建设数据中心,需要一个基础数据中心和自己的IDC。IDC自身的安全性和网络接入安全性直接影响数据平台的可用性。数据中心的物理安全可以提供更可靠的基础,也为大数据平台带来更高的安全性。第二层是大数据平台的系统安全,由大数据内部的各种安全子系统组成,共同保障大数据平台的完整性。第三层是数据应用的安全性,非常贴近用户的使用场景。用户需要使用各种数据安全产品来保护自己的数据安全场景,从而为自己的数据保密。

数据中心物理安全与网络安全

如何有效降低大数据平台安全风险

在天妃大数据平台,阿里巴巴云的数据中心负责数据中心的物理安全和网络安全。整个安全风险可以分为三个维度:

第一个维度是数据中心支持设施,包括电源支持和冷却支持。阿里巴巴云的数据中心可支持独立多通道供电、低压变配电系统、高冗余UPS/HVDC、高可靠性备用供电系统和多级防雷接地系统,共同为阿里的数据中心提供高可用的数据支持。阿里巴巴云的数据中心可以为冷却系统中的冷源设备管道和终端提供多通道冗余,从而为数据中心提供高可用性的冷却。

第二个维度是数据中心的安全控制。在数据中心运维过程中,会有一系列的安全流程。一方面是安全控制。在安全管控方面,阿里巴巴云的数据中心将整个生产过程中涉及的人和建筑物分为三个等级,并在每个等级上标注不同的颜色。基于这些颜色,它构成了一个颜色管理系统。同时,为了安全控制整个设施的有效运行,阿里巴巴云的数据中心也建立了对抗性的检查体系。另一方面,阿里的数据中心将提供724的监控系统,可以将数据中心的事件录入不同的管控平台。

第三个维度是数据中心的网络安全。数据中心都是为提供网络接入而设计的。在数据中心自身的网络架构中,阿里可以提供多通道冗余接入,最大程度保证网络可用性。同时,作为数据中心,需要提供一个收敛率低的网络架构,主要是针对数据中心量身定制和优化的。此外,对于网络防御,阿里提供高防御网络服务和近源攻击清理。同时,阿里的数据中心使用云安全基础设施WAF提供七层网络防御。

大数据平台系统安全

如何有效降低大数据平台安全风险

MaxCompute平台安全系统主要包括四个子系统。

第一个子系统是访问控制,主要处理所有的访问控制和限制控制。它可以在访问控制中支持IP白名单,在权限控制中提供ACL(DAC)能力和LABEL(MAC)能力以及基于属性的POLICY(ABAC)能力、共享能力和数据保护能力。

第二个子系统是应用程序隔离。用户执行的UDF将在这个子系统中执行。支持无权限限制的Java和Python语言编写的UDF,提供三方引擎的计算能力,为MaxCompute提供了计算平台。

第三个子系统是风险控制和审计,它提供各种事件审计日志,包括任务日志、用户日志和表日志,并提供各种元数据功能,包括表和资源。

第四个子系统是平台的可信系统,基于信任的语言提供了存储加密的能力。

MaxCompute平台访问控制系统

如何有效降低大数据平台安全风险

MaxCompute平台的访问控制系统是基于多租户系统构建的。云中的每个MaxComputeR租户将对应MaxComputeR中的一个或多个项目,任何项目都将包括三种内容。第一类是项目属性,包括配额和所有者信息。第二类是项目数组,包括用户标识和角色。第三类是项目的所有资源,包括表、函数、文件系统和实例实例。

当用户使用混合云方案在云上与VPU通信时,可以将VPC配置成MaxCompute作为防控条件,只允许VPC这个源头访问用户的项目,这是VPC的白名单能力。同时也提供了端的能力,主要针对企业场景中控制企业生产设备的需求。目前MaxCompute可以提供权限系统2.0,提供ACL控制能力,独立下载权限能力,还提供从人到表,从表到人的查询能力。这些将向公共云上的企业客户开放。

MaxCompute平台应用程序隔离系统

当用户在MaxCompute中创建UDF时,他们可以直接使用UDF函数来执行应用程序。应用在MaxCompute中执行时,会在虚拟化隔离的过程中执行,确保用户的代码不会映射到平台和平台的其他租户。目前,MaxCompute可以提供更新的应用。当企业使用开源引擎时,它通常有自己定制的分支。为了支持这些分支,它提供了插件的功能。企业可以将Spark打包为用户定义的引擎,并在自己的MaxCompute中执行。

用户创建自定义计算引擎非常简单,只需创建一个引擎,然后使用指定的Spark jar包。提交任务时,您只需要使用创建的引擎运行Spark作业。

如何有效降低大数据平台安全风险

信息架构1.0的能力主要在MaxCompute平台的风控审计系统中提供。包括三种类型的源数据。在使用Information Schema的基础上,企业用户可以使用第一类数据做非常详细的数据生命周期管理、Owner检索和存储大小检索。第二类主要用于查询用户或角色信息、用户权限、资源权限、表和字段标记。第三类可以实现定制化的分析功能,包括热量表分析、表血关系分析、成本分析、性能分析。此外,它还以准实时的方式向企业提供信息。

MaxCompute 平台可信系统

如何有效降低大数据平台安全风险

在MaxCompute平台的可信系统中,MaxCompute将提供BYOK存储加密能力,企业和用户可以将自己指定的密钥上传到阿里巴巴云的KMS,作为数据存储的总密钥。在对数据进行加密时,MaxCompute可以直接使用企业上传的主密钥生成数据的加密密钥,然后将加密后的数据和加密后的数据密钥存储在物理介质中。整个过程可以支持AES256,同时符合国家安全规定的国家秘密算法SM4的算法支持规定。支持BYOK之后,就给了企业能力。当企业需要销毁云上的数据时,只需要销毁其在阿里巴巴云KMS的主密钥。此时,MaxCompute上存储的所有数据都处于逻辑销毁状态。

在数据安全领域,存在三大安全风险:

1.数据泄露:缺乏权限控制导致数据泄露。

2.数据滥用:授权导致的数据滥用无法最小化。

3.数据误用:无法跟踪数据使用情况会导致数据误用。

数据应用安全

DataWorks数据安全产品承担阿里巴巴云数据应用安全的责任。数据安全产品涉及三个方面,为企业客户提供保护。第一个方面是权限控制。阿里巴巴云将为申请流程控制、审批流程控制、权限恢复和权限查看提供基本的产品能力。第二个方面是数据保护,将提供数据分类、敏感数据识别、数据标记、静态脱敏和差异化隐私。第三个方面是风险管理,将提供敏感权限审计、数据访问审计、数据泄露防范和数据滥用防范能力。

DataWorks 数据应用安全解决方案

如何有效降低大数据平台安全风险

将安全解决方案应用于DataWorks数据的过程如上图所示。首先,用户数据可以用各种类型的规则进行标记。数据安全级别、个人信息数据级别、表格安全级别、安全分类标签可以根据数据字段安全进行定义。自动识别后,所有数据都可以通过其字段级标记能力直接进入MaxCompute的源数据。

在数据工厂的权限管理和控制产品中,包和字段级别的权限应用和控制是基于这些安全分类级别进行的。整个权限申请控制后,由企业内部人员进行权限审批,然后DataWorks利用MaxCompute2.0提供的权限系统,在字段级进行ACL授权、Label授权等一系列授权手段,为企业提供最小权限的能力。

所有授权操作都将进入MaxCompute的风险控制审计数据,并通过Information Schema提供给企业客户进行审计。所有的人员权限审计、资源权限审计、权限使用审计都会在风险管理过程中为DataWorks安全产品提供数据支持,同时为企业提供权限恢复的选项,允许企业制定一些权限恢复的规则。

另一方面,源数据为敏感信息提供了一些标识。DataWorks将提供静态脱敏能力,可以支持各种脱敏规则。同时,阿里还可以提供回声脱敏和下载脱敏的能力。所谓echo脱敏,是指企业开发人员在开发过程中显示一个表时,数据会被强制脱敏,在用户的开发界面上进行回显。所谓下载脱敏,就是在使用DataWorks下载数据时,数据会经过脱敏规则。此外,DataWorks还将为差异化隐私提供脱敏服务。所有敏感信息的使用也将进入源数据,并通过信息模式为用户和企业客户提供服务。此外,数据表审核、用户审核和计算作业审核将为数据泄露报警、数据滥用和数据误用提供数据支持。

DataWorks 数据安全产品

如何有效降低大数据平台安全风险

DataWorks数据安全产品主要分为两部分:权限控制和数据保护。

DataWorks数据安全权限管控产品

如何有效降低大数据平台安全风险

DataWorks在Security Center 2.0中提供了一个简单的使用流程,如上图所示,就是申请权限的过程。客户用户可以在数据工厂的安全中心申请特定字段的权限。在申请权限的过程中,可以设置申请权限的具体时间、原因、环境。权限申请提交后,会出现在权限所有者的页面上,可以看到待审批的流程。打开后,可以看到申请人提供的支持审批的信息。当根据拒绝流程处理审批时,您将在申请人列表中看到申请人的拒绝状态。同时,在权限审批过程中,页面会提供从表到人、从人到表的详细查询,并在此过程中实现权限恢复。

DataWorks数据安全数隐私保护产品

如何有效降低大数据平台安全风险

隐私保护的数学模型是差分隐私。所谓差分隐私,是指包含敏感数据的信息和差分隐私处理的信息呈现出数学上可描述的概率分布过程,如上图所示。红线是包含隐私的数据,黑线是不敏感的数据。正是因为这个数学规律,它在统计场景中具有可替代性。在一些使用统计函数的场景中,可以使用不敏感的数据来支持统计过程。

到目前为止,实现差别隐私的方法有两种,一种是全局模型,另一种是局部模型。在全局模型中,用户仍然需要将自己的隐私交给一个中间方。中间方统计计算后,结果经过差分隐私处理后交给数据分析师。在局部模型中,每个隐私包含者对自己的数据脱敏,直接交给中介,然后进行差异化隐私。这种模式很难实现,但会给用户的隐私带来更好的保护。

如何有效降低大数据平台安全风险

如何有效降低大数据平台安全风险

目前,DataWorks将基于本地模型为用户提供服务,并提供两个UDF函数,一个用于数据脱敏,另一个用于脱敏结果的统计计算。在使用中,第一个函数用于对敏感数据进行脱敏,所有脱敏的数据由Data Collector一起收集,然后调用第二个函数进行统计和分析。从上图可以看出,经过差分隐私处理后,源数据和处理后的数据表现出非常好的一致性。

阿里云飞天大数据平台安全体系

如何有效降低大数据平台安全风险

根据阿里巴巴云菲天达数据平台的安全体系,阿里巴巴云数据中心安全基础设施提供数据中心防护设施、数据中心安全控制和数据中心网络安全。MaxCompute的平台可信系统通过访问控制系统、应用隔离系统、风险控制审计系统为企业客户提供大数据平台的完整性保障,还提供VPC白名单、App端标识、权限系统2.0、用户自定义计算引擎。此外,它还支持InformationSchema1.0的源数据能力,并将提供BYOK的存储能力。DataWorks数据安全产品包括权限控制产品、数据保护产品和风险管理产品。阿里巴巴云主要发布DataWorks安全中心2.0和DataWorks差异化隐私产品。所有产品和系统都为数据生命周期的安全提供了真正的保障。

阿里云双11亿元补贴提前领,进入抽取iPhone 11 Pro:https://www.aliyun.com/1111/2019/home?utm_content=g_1000083110

作者:金恒

本文为云起社区内容,未经许可不得转载。