大数据备份的误区有哪些?

环球青藤 2020/07/23 07:02

大数据已经成为大多数组织的首要任务,他们越来越意识到数据在他们的成功中扮演的核心角色。但是许多公司仍在为如何在当今现代架构中最好地保护、管理和分析数据而奋斗。如果不这样做,就会导致停机时间延长和潜在的数据丢失,从而给组织带来大量的成本。

与传统数据平台(Oracle、SQL Server等)由IT专业人员管理不同,大数据平台(Hadoop、Cassandra、Couchbase、HPE Vertica等)通常由工程师或开发运营团队管理。关于大数据备份和恢复的一些常见误解需要澄清。

揭穿关于大数据备份和恢复的最常见的神话

一些最常见的误解包括:

1、大数据备份的误区——使用多个数据副本,就不需要单独的大数据备份/恢复工具。

大多数大数据平台创建多个数据副本,并将这些副本分发到不同的服务器或机架上。这种类型的数据冗余机制在发生硬件故障时保护数据。但是,任何其他情况,如用户错误、意外删除或数据损坏,都可能导致数据丢失,因为这些错误或损坏可以迅速扩散到数据的所有副本。

2、大数据备份的误区——可以快速、轻松地从原始数据重建丢失的数据。

如果您仍然拥有重建丢失数据的所有原始数据,那么这可能是可行的。但在大多数情况下,原始数据被删除或不容易访问。即使原始数据可用,重构丢失的大数据也需要数周时间,消耗大量技术资源,并增加大数据用户的停机时间。

3、大数据备份的误区——备份pb级的大数据不经济或不切实际。

对pb级数据进行常规的完全备份需要数周时间,而且至少需要50万美元的基础设施投资。但是,可以采取几个步骤来缓解这些问题。您可以找到一小段对您的组织有价值的数据,并仅对其进行备份。更新的备份技术(如用于有效存储备份内容的重复数据删除技术)、用于传输变化内容的永久性增量备份技术以及使用商用服务器也有助于降低成本和缩短备份时间。

4、大数据备份的误区——远程灾难恢复副本可以作为备份副本。

谨慎的做法是将数据副本保存在远程数据中心,以防止火灾和地震等大规模灾难。这通常通过定期将数据从生产数据中心复制到灾难恢复数据中心来实现。但是,对生产数据中心所做的所有更改都会溢出到灾难恢复站点,包括意外删除、数据库损坏、应用程序损坏等等。因此,灾难恢复副本不能作为备份副本,因为它没有可以来回滚的时间点副本。

有哪些大数据备份的误区?这才是大数据工程师必须掌握的,大数据已经成为大多数组织的首要任务,他们越来越意识到数据在他们的成功中扮演的核心角色,你能处理好吗?如果您还担心自己入门不顺利,也可以点击本站的其他文章进行学习。

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司