容错服务器——容错的概念

2012-11-21

容错的概念   

一、按时间划分的故障分类   

1.永久性失效 (permanent),永久持续下去直至修复为止。   

2.间歇性故障 (intermittent),短暂的,但是却是断续的,既有其偶然性,又有其不定期的重复性。   

3.偶然性故障 (transient),暂时的,且可能是非重复的。   

二、间歇性故障和偶然性故障   

1.占所有现场失效的90%  

容错的含义: 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器集群技术、双机冗余服务器方案和单机容错技术。   

实际上,服务器集群和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。   

单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。惠普公司企业服务器,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。   

容错服务器的必要性:   

进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。尤其对24小时不间断,长期工作负责核心的服务系统,需要具备容错服务。

腾佑科技IDC服务有双线服务器租用、网通服务器租用、电信服务器租用。

上一篇:2012年-国产品牌服务器全面发展年
下一篇:宇瞻推出超小型1U服务器工业SATA固态硬盘