胡律师:13306647218

如何安全储存大数据库!管理大数据存储的十大技巧

时间:2021-07-19 23:08:16

在1990年,每个应用服务器都倾向于直接连接系统(DAS)。存储区域网络旨在为更大规模和更高效率提供共享池存储。Hadoop扭转了这一趋势,回到了DAS。每个Hadoop集群都有自己的——。虽然是横向扩展的——直连存储,帮助Hadoop管理数据本地化,但也放弃了共享存储的规模和效率。如果您有多个实例或Hadoop发行版,您将获得多个横向扩展存储集群。

管理大数据存储的十大技巧

我们遇到的最大挑战是平衡数据本地化和规模效率,这是一个鱼与熊掌兼得的话题。

数据本地化是为了确保大型数据集存储在计算节点附近,以便于分析。对于Hadoop来说,这意味着管理数据节点并为MapReduce提供存储以充分执行分析。它实用有效,但也存在大数据存储集群独立运行的问题。以下十项是在Hadoop环境中管理大数据存储的技巧。

1.分布式存储

传统的集中式存储已经存在了一段时间。但是大数据并不真正适合集中式存储架构。Hadoop旨在使计算更接近数据节点,并采用HDFS文件系统的大规模横向扩展功能。

尽管如此,Hadoop管理自身数据效率低下的一般解决方案是将Hadoop数据存储在存储区域网络上。但也造成了自身性能和规模的瓶颈。现在,如果您通过集中式SAN处理器处理所有数据,这与Hadoop的分布式和并行特性背道而驰。您可以为不同的数据节点管理多个存储区域网络,或者将所有数据节点集中到一个存储区域网络中。

但是,Hadoop是分布式应用,所以应该在分布式存储上运行,这样存储就保留了与Hadoop本身一样的灵活性,但也需要拥抱软件定义的存储解决方案,在商用服务器上运行,这自然比瓶颈Hadoop更高效。

2.超融合VS分布式

注意不要把超收敛和分布式混淆。一些超融合解决方案是分布式存储,但通常这个术语意味着您的应用程序和存储存储在同一计算节点上。这是解决数据本地化问题的尝试,但会造成过多的资源争用。这个Hadoop应用和存储平台将争夺相同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层,这样更好。之后,使用缓存和分层来解决数据本地化和补偿网络性能损失。

3.避免控制器瓶颈(Controller Choke Point)

实现该目标的一个重要方面是——避免了通过单点(如传统控制器)处理数据。相反,为了保证存储平台的并行化,可以显著提高性能。

此外,该方案提供了增量可伸缩性。向数据湖添加功能就像将x86服务器加入其中一样简单。分布式存储平台将自动添加功能,并在必要时重新调整数据。

4.删重和压缩

掌握大数据的关键是重复数据删除和压缩技术。通常,大数据集中70%到90%的数据被简化。就PB容量而言,它可以节省数万美元的磁盘成本。现代平台提供线内(与后处理相比)重复数据消除和压缩,这大大降低了存储数据的能力。

5.合并Hadoop发行版

许多大型企业都有多个Hadoop发行版。可能是开发者需要或者企业部门已经适应了不同的版本。无论如何,这些集群的维护和运行最终都是需要的。一旦海量数据真正开始影响一个企业,多个Hadoop分布式存储将导致效率低下。我们可以通过创建一个单一的、可重复的和压缩的数据湖来获得数据效率

6.虚拟化Hadoop

虚拟化已经席卷了企业市场。许多地区超过80%的物理服务器现已虚拟化。然而,仍然有许多企业因为性能和数据本地化问题而避免谈论虚拟化Hadoop。

7.创建弹性数据湖

创建数据湖并不容易,但可能需要大数据存储。我们有很多方法做这件事,但是哪一个是正确的?这个正确的架构应该是一个动态的、灵活的数据湖,能够以各种格式(结构化、非结构化和半结构化)存储所有资源的数据。更重要的是,它必须支持在本地数据资源而不是远程资源上执行应用程序。

不幸的是,传统的架构和应用程序(即非分布式)并不令人满意。随着数据集越来越大,将不可避免地将应用程序迁移到数据,并且延迟太长,无法逆转。

理想的数据湖基础架构可以存储数据的单个副本,应用程序可以在单个数据资源上执行,而无需迁移数据或制作副本

8.整合分析

分析不是一个新的功能,它在传统的关系数据库管理系统环境中已经存在了很多年。区别是基于开源应用的出现,以及数据库表单、社交媒体和非结构化数据资源(如维基百科)的整合能力。关键在于能够将多种数据类型和格式集成到一个标准中,这有利于更容易、更一致地实现可视化和报表制作。适当的工具对于分析/商业智能项目的成功也至关重要。

9. 大数据遇见大视频

大数据存储的问题已经让人感到力不从心,现在又出现了大视频现象。例如,企业逐渐倾向于使用视频监控来提高安全性、运营和工业效率、简化流量管理、支持合规性以及其他几个使用案例。短时间内,这些资源会产生大量的内容,大量的内容必须被处理。如果没有专业的存储解决方案,很可能会导致视频丢失,质量下降。

10.没有绝对的赢家

Hadoop确实取得了一些进展。那么,随着大数据存储遍地开花,它是否会成为赢家,并推动其他方案,但事实并非如此。

例如,基于存储区域网络的传统体系结构短期内无法替代,因为它们具有OLTP的固有优势和100%的可用性要求。因此,最好的方法是将超融合平台与分布式文件系统和分析软件集成在一起。成功的最重要因素是存储的可扩展性。