云存储的重复数据删除架构的分析与设计
|
在Vmware7.10workstation 上搭建起了的云存储平台。平台中有1 台主机和4台虚拟机使用的主机的配置如下:CPU 为3.0GHZ,内存4G,硬盘320G。四台虚拟机的配置一样,CPU2.8GHz,内存512Mb,内存120G。实验上传了1000 个文件,共占19.8Gb。在一个普通的存储系统中,这1000 个文件肯定会占19.8Gb 的容量;在本架构中,存储在云中的文件只占6.93Gb。在容量上确实有节省空间的效果。
5.结语
本文通过利用数据块的hash值作为索引存储在HBase来获取高性能的查询同时在HDFS 中使用link文件来管理海量数据来实现云环境下的重复数据删除。通过数据块级与字节级相结合的重复数据删除策略提高了数据重复删除粒度,减少了数据存储空间,并用实验证明了其删除的能力。
另外,基于云存储的重复数据删除比普通重复数据更有优势。1.重复数据删除的关键技是数据分块与数据指纹计算。虽然MD5算法的计算复杂性非常高以至于占用很多的CPU 资源,且数据指纹需要保存和检索使得索引表越来越大。但是将重复数据删除应用在云存储上即可以发挥云存储虚拟化和云计算分布式计算的优势,构建集群的重复数据删除架构,为用户提供多倍的吞吐及处理能力。2.单点故障时其他设备可自动接管其工作以保证处理的连续性。由于集群仍然保留的是单个Hash表所以它不仅提高了系统性能而且不会影响到重复数据删除比率。3.云存储融合云灾备技术可以解决软硬件损坏造成的数据损坏和丢失问题。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

