logo
首页
科元简介
服务项目
客户案例
故障类型
数据恢复
收费标准
联系我们
服务器RAID资料 你所在的位置:首页 > 服务器RAID资料
服务器存储数据恢复
 

保持高度的数据访问能力并让每个用户获得尽可能高的访问效率是企业IT部门关注的两大焦点。通过实施从数据中心到桌面的强大的容错系统,系统管理员能够大幅度提高数据的整体可用性,实现对于存储、管理和传输数据的核心组件的内部冗余及故障监控。根据每个公司不同的预算和需求,针对现有系统的容错堡垒,既可添砖加瓦,也可全面翻新。通常而言,升级的过程是从磁盘存储本身开始,然后向最终用户的方向外推,亦即随之为磁盘子系统,磁盘控制卡,服务器至存储的链路,服务器,最终到服务器至用户分布网络。

就如今信息密集的应用而言,企业存储数据的速度能轻易超出IT或IS部门简单地增加的存储容量。随着数据量的增长,以适度的容错方式灵活地保存数据业已成为一大挑战。

传统的方法是利用服务器本身。不幸的是,服务器增加存储空间的余地非常之有限。往服务器机箱里加装额外的硬盘往往需要精巧的手法和高超的组装技巧,而且常常导致较长时间的网络中断。而当服务器再无机箱空间容纳更多硬盘时,系统管理员通常只有寥寥无几且差强人意的处理办法。

他们可以用体积更小、容量更大的硬盘更换现有硬盘,但必须忍受数据从小容量硬盘备份并恢复到大容量硬盘时冗长的宕机时间。要不他们就得把硬盘加装到仍有内部空间的备用服务器上并通过网络"跨接"这两个服务器--如此一来将占用宝贵的网络带宽,增加系统复杂性,降低磁盘访问网络的速度同时增加文件共享的开支。此外,机架式服务器可用于硬盘扩充的内部空间实际上非常有限。

一种较好的解决办法是采用外部硬盘,这是迈向迅速、可行地满足存储需求的第一步。这类硬盘安装在自备风扇的机架中,具有各自的电源和外部总线插口,能迅速解决存储需求。然而,除了极少数外部设备之外,这类解决方案在面对更高的电源和空间需求时根本无法扩容,更别提它那一团烂麻似的连线。

容错存储机架

专为存储设备而设计,JBOD(即"磁盘组")是一种外部连接存储解决方案,能有效地容纳多个磁盘。不同于单独的外部磁盘,JBOD解决方案集合了电源和散热系统,能同时支持大量的硬盘。硬盘统一连接到机架的内部总线上,外部总线连接减少到只需要一条服务器至JBOD系统的通道。

JBOD系统还支持热插拔硬盘,可以添加和更换热插拔硬盘,而无需中断数据存储或服务器运行。高质量的JBOD整合了冗余部件用以预防整体系统故障。它既可用于连接内部PCI RAID控制卡也能组成完整的外部存储子系统。作为迅速提高存储能力的高效解决方案,JBOD正日益赢得具有极强内部存储扩展需求的用户们的青睐。

作为专业存储解决方案,实现了容错功能的JBOD系统的各个部件都有助于加强所存储数据的完整性及可用性。尤其重要的是,它拥有磁盘阵列所迫切需要的冷却和电源系统,这令该系统成为容错设计方案中的首选。

散热(冷却)系统在服务器内部的狭窄空间中,有限的散热气流对温度敏感的元气件有较大的威胁,一旦把内部硬盘变为外部JBOD解决方案,就可以优化磁盘驱动器和服务器元件的散热系统。为了冷却元气件,JBOD系统采用了多个散热风扇。但是与通常给整个机箱和全体元件通风的风扇不同,JOBD冷却系统特别专注于给磁盘阵列散热。

从风扇的转速到气流直至出气口,JBOD冷却系统只有一个任务并要圆满的完成这个任务:不让您的数据过热。由于配备了多个冷却风扇,它们中的任何一个出现问题都不会危及整个散热系统。专门制作的JBOD机架可以在不中断JBOD系统运行的情况下更换某个发生故障的散热风扇。

电源数据存储系统实现容错的另一要点是电源。容错电源系统通常配备一个冗余电源,两者均能满足系统所需的功率。当一起使用时,两个电源都分担系统的总功耗。假如其中一个出现问题,故障电源或无法供电的电源将被隔离,直至它得到修复或更换。

与冷却系统相类似,JBOD解决方案的电源系统改变了磁盘驱动器从服务器本身电源供电的局面,令存储系统和服务器双方均受益非浅。这是一个明显的进步,因为磁盘驱动器对电力的需求十分严格且突发性的。甚至仅仅从服务器总电源上卸载一对硬盘并将其移到JBOD系统中来,即可延长服务器电源的使用寿命。

具有自我监控能力的机架

在电源,冷却系统,数据总线及其他部件方面所作的容错有助于数据存储系统在发生各式各样的硬件故障中免于瘫痪,但它却无法帮助我们辨别和消除故障。令人欣慰的是,JBOD解决方案通过向处于管理地位的监控软件发出标准化的信息,能够将故障信息通知系统管理员。

1995年,出现了一个称为SAF-TE的标准来应对这一挑战,从那时起,它已被广泛接受。SAF-TE,是"SCSI接口容错机架"的简称,是基于SCSI的存储设备,控制卡,电源和其他部件之间交流状态信息以监控各自工作情况的一种通讯方式。环境监测,如存储机架壳体的温度,也可通过SAF-TE来追踪。

符合SAF-TE标准的机架信息能够被转化为JBOD系统自身的声音和灯光告警信号--即状态指示灯和蜂鸣器--以显示关键部件故障点。虽然由于SAF-TE在容错和高可用性中的被动角色使之被强调的较少,但当我们试图维持高水准的可用性时,SAF-TE却是一个非常重要的因素。为达到持续数据保护,采用软件监控工具将有助于保持高度的容错。通过适当的机架监控工具,操作者可以很直观地获得故障告警。举个例子,假如电源或风扇模块出现故障,冗余模块会很容易的承担额外的负载。监控这些部件是维持一个良好的容错系统的重要组成部分。利用从存储设备取得的SAF-TE状态信息,管理主机上的软件可以:

向操作员告警故障信息 表明哪个部件或环境监测值出现问题, 随后允许进行快速地容错重建。告警能发给某个事件日志,某个电子邮件系统,寻呼机,或某个服务提供商的技术支持队伍。
RAID容错磁盘阵列

即使有相当的未空闲空间,单个硬盘的存储空间仍然不能给访问用户提供多少便利。当数据突然无法存取的时候,罪魁祸首通常是硬盘故障。在当今的个人电脑用户中,一整天的工作由于某个存放了所有数据的硬盘"崩溃"而付之东流的事早已屡见不鲜。对这一现象的标准对策是应用RAID,也就是"非昂贵磁盘冗余阵列"。正如定义所言,通过将磁盘阵列设置为RAID结构,实现冗余,则故障发生时就不会造成用户数据丢失或可用性中断。

RAID级别 1 最简单的容错RAID存储结构称为RAID级别1,或"镜像",它把一个硬盘的数据镜像(复制)到第2个相同的硬盘。高性能的RAID1方案能同时访问两个镜像硬盘--因此如果具备多个输入/输出请求时,向一个镜像的RAID结构写入一大块数据只需要一个同步写入步骤而不必依次写入每个硬盘。

同步磁盘访问的另一个好处是从硬盘读取数据的速率翻了一倍。由于两个镜像硬盘的数据相同,因此I/O请求的一半数据可以从一个硬盘读取,而另一半能同时从第2个硬盘获得。如果某个硬盘发生问题,镜像拷贝(盘)会被用于数据访问,直至故障盘被替换为止。一个硬盘出现故障时RAID1的性能与访问单个硬盘无异。当然,在故障盘未被更换并且完全恢复镜像前,是不可能获得双倍读取能力的。

尽管拥有高效的读/写能力,RAID1对硬盘空间的利用率却不高。RAID1结构的容错存储量只是物理存储空间的一半。有鉴于此,RAID1通常用于要求极高数据可用性的环境。

RAID 5 容错RAID存储的一种常见结构称为RAID5。RAID5结构,或叫"分布校验值"结构需要两个以上硬盘才能实现。当数据写入硬盘时,它被分解成数据块并分存到多个硬盘上。"分布校验值"是指由数据块产生的一个信号(签名)。校验块同样也分布存放在阵列磁盘上。RAID5使用某种算法来决定某组数据块的校验块的存放位置,正是这种算法保证了某个硬盘故障不会造成数据丢失。如果丢失某个数据块,可以根据剩下的数据块和校验块重新产生。假如一块故障硬盘上的一个校验块丢失了,同样也不必担心,因为RAID5可以确保其他硬盘上用来生成该校验块的数据仍然健在。

RAID5具有较快读取速度,因为数据分部存储在不同的硬盘上可以同步访问。写入速度由于需要生成校验值而受到轻微影响,但与磁盘镜像相比分布校验值的磁盘利用率要高的多,因为只需较小的磁盘空间来存放校验起数据保护作用的校验值。如此一来,RAID5普遍应用于文件和应用服务器,包括Web,电子邮件,新闻和数据库系统。

RAID 0 尽管没有容错能力,但RAID0,也叫做"条带",却是一种非常流行的RAID结构--RAID 0+1的基本单元。条带是指数据条分散存放在多个硬盘上的形式。由于RAID 0结构支持同步访问条带化的硬盘,其读取和写入的速度都获得提高。但同时也致使RAID 0没有容错保护。

例如一个条带化的4硬盘阵列,一个由4个数据块组成的文件可能将每块数据分别存放在4个硬盘中。要读/写这个文件只需要一个同步的读/写过程,而无需像对单个磁盘那样进行连续4次读/写。对于同样的4硬盘组合,RAID 0与RAID 5的区别在于虽然4个硬盘都具备数据访问能力,但一旦某个硬盘发生故障,RAID 0结构下的文件数据将无法再访问,而RAID 5仍然可以。

RAID 0经常用于需要迅速读/写大型文件的应用,如视频制作,影像编辑和印前。这类环境通常会采用备份系统来替代最近的数据,因此任何数据丢失或宕机的造成的损失都不大。

RAID 0+1 以RAID 0为基础,RAID 0+1镜像两个相同的RAID 0结构,形成一个具备极高访问吞吐能力的容错结构。这种结构特别适合强调快速数据传输及高可靠性的应用,如文件共享,影像应用。

容错RAID控制卡

RAID控制卡负责管理磁盘阵列上的数据,监控磁盘的运行状况,在某个硬盘出现问题时保持用户数据的完整性。RAID系统支持磁盘"热待机",可轻而易举地更换RAID结构中的故障盘,实现数据中心在无人值守下保持容错。控制卡的工作是用热待机磁盘代替故障盘,令实际阵列恢复其数据保护能力。(故障盘可以稍后再换下来)。

RAID控制卡带给系统管理员的主要好处是灵活性。一旦某个硬盘发生故障而操作者或系统管理员无法及时对情况作出处理时--半夜、周末或者管理员在外地时--则热待机磁盘会自动加入阵列,代替故障盘的身份。RAID控制卡会迅速恢复磁盘阵列的容错属性。

仅仅依靠单个RAID控制卡,即使我们存放数据的磁盘能够容错,但仍然存在一个潜在的缺陷。虽说没有RAID保护,任何磁盘故障都将是灾难性的--相比而言一个控制卡的失效只会导致访问失败。幸运的是,容错结构支持冗余RAID控制卡,允许用户在一个控制卡发生故障时都不丧失对数据的访问能力。

双RAID控制卡系统通常有两种结构模式:主动/主动和主动/待机。在双控制卡主动/主动结构中,两个卡独立或协同运行,使主机与存储设备之间更快速地传输数据。主动/主动结构下的每个卡能服务于不同的主机,并且两者间作持续查询(称为"心跳")以确知对方的工作状况。一旦其中一个控制卡出现问题,另一个控制卡就会自动承担故障控制卡的职责而不会影响数据访问。

更换故障盘时将有效地重建心跳,两个控制卡自动恢复正常的主动/主动状态。上述过程对于用户都是透明的,不会造成数据访问中断或数据丢失。

控制卡也可以设定为"主动/待机"结构,由其中之一(即主动控制卡)承担所有外部设备的连接。另外一个(待机控制卡)随时监控着前者的心跳,以确认主动控制卡工作正常。假如它认为主动控制卡发生故障,待机控制卡会自动接手主动控制卡的工作,直到故障控制卡恢复或被更新为止。这一操作同样对用户是透明的,能保证他们持续的数据访问。

拥有电源、冷却系统、双主动/主动RAID控制卡,以及符合SAF-TE监控标准的机架,您的数据存储系统现已具备容错能力。因此关注的焦点应当转向系统连接服务器和用户通往数据存储的部分。这样的话,从服务器到存储系统的路径将是下一个程度的保护。

容错主机总线适配卡

在服务器级采用双主机总线适配卡(HBA)将在服务器和数据存储子系统之间建立多条路径。通过服务器上的软件监控这些冗余路径能增加一层容错。

如果其中一条路径中断或破损,软件把数据请求重新指向另一个(替换)路径。这叫做"上游"或"输入/输出路径"故障切换。类似于冗余RAID控制卡之间的心跳,在冗余数据路径之间也存在事实上的心跳。一旦某个路径未能发回心跳信号,则数据路径会自动重新路由,从而用户的保障数据访问不会中断。

集群服务器

至今,我们已经讨论了从服务器附属设备到存放数据的物理磁盘的所有部件的冗余。然而,服务器本身在追求完全容错过程中仍存在的明显弱点。服务器负责通过各种应用如Web服务器、数据库和文件共享来访问存储的数据。服务器系统元件的任何故障都将破坏容错性最好的存储应用。解决办法就是:集群。

"集群"的意思是泛指一群服务器运行得仿佛一台虚拟服务器。许多应用采取集群的方式在建立了一个更加强大的"虚拟"服务器的同时,也具有了另一层次的容错。依靠在某一物理服务器上运行某些用户请求,而在另一物理服务器上运行其他用户请求的处理方式,集群使得多个分立的系统间共享计算资源。某个请求由哪个服务器来处理是由集群管理软件来决定的,用户不必探询大量不同的服务器以选出最为可用者。这样就允许多个服务器连接并共同支持用户的请求。假如某个服务器出现问题,请求就会被直接重新路由到下一个可用服务器。

对于某些应用,如Web服务,这类集群环境由于可提供多条同步链路而被用来保障持续的访问。另一些集群解决方案只是用于增强操作系统或服务器的稳定性。在当今的计算环境,购买两个或四个处理服务器形成集群结构,是一种投资有效性极佳的高度服务器容错策略。在这种环境下,用户或应用能够无缝地从正在出现问题的服务器或已经失效的服务器转移到可用的"健康"服务器。

从本地服务器内部存储,到外部RAID存储,以致直接附属存储(DAS)或存储局域网(SAN)环境下的集群服务器解决方案,这一演进过程围绕着高度容错并合理地遵循着数据保护的逻辑规律。完美规划的存储产品也将依照这一规律,让今天的磁盘组(JBOD)解决方案成为明日的RAID系统,进而随着需求的提升发展成未来的SAN集群环境。总之,沿着这一方向的每一步都将促进更强的容错性,从而提高可用性并同时保护所有存储系统中最为重要的资产:您的数据。

 
京ICP备17011772号 | 京ICP备17011772号 | 京ICP备17011772号 | 硬盘数据恢复 | Linux服务器数据恢复 | RAID5数据恢复 | 数据库修复 | 北京服务器数据恢复 | RAID数据恢复 |
首页
科元简介
服务项目
客户案例
故障类型
数据恢复
收费标准
网站地图
CopyRight © 2006-2021 All Rights Reserved.版权所有:科元复得数据恢复 京ICP备17011772号https://beian.miit.gov.cn