构建高性能集群计算机系统的关键技术

管控一体化

文章编号:1008-0570(2006)01-3-0086-03

中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第1-3期

构建高性能集群计算机系统的关键技术

KeyTechnologiesUsedForConstructHigh-performanceComputerClusterSystem

(武汉理工大学)熊盛武

王鲁杨婕

Xiong,ShengwuWang,Lu

摘要:高性能计算机技术是衡量一个国家科技水平及综合国力的重要标志之一,目前世界上一些发达国家都在争相投入巨额资

金对它进行开发和研究.PC集群计算机就是最廉价的高性能计算机.着重讨论了集群计算机系统构建中的一些关键技术,如可扩展性、可用性、资源管理、负载平衡和并行程序设计环境等,同时,也根据集群系统的特点提出了它在不同领域中的实用意义.关键词:集群计算机系统;并行计算;可用性;可扩展性

文献标识码:A中图分类号:TP311

Abstract:High-performancecomputertechniqueisoneoftheimportantsignsofweighingacountry’sscienceandtechnicallevelandsyntheticalnationalpower.Now,somedevelopedcountriesinworldarepositivelyinvestinghugefundsforitsdevelopmentandstudy.PCclustersystemisthecheapestone,Thepaperemphaticallydiscussessomekeytechnologiesusedfordeployingaclustersystem,suchasscalability,availability,resourcemanagement,loadbalancingandparallelprogrammingenvironmentetc.Atthesametime,accordingtocharacteristicsofaclustersystem,itpresentthepracticalsignificanceofsuchasystemindiversefields.Keywords:clustercomputersystem;parallelcomputing;availability;scalability

1集群计算机系统

集群计算机是指利用高速通信网络将一组高档工作站或PC按某种结构连接起来,在并行程序设计及可视化人机交互集成开发环境支持下,统一调度,协调处理,实现高效并行处理的系统.由于集群计算机具有投资风险小,可扩展性好,可继承现有软硬件资源和开发周期短、容易编程等突出特点,目前已很快成为并行处理的热点和主流,据专家预测“:未来的高性能计算机和超级服务器都将基于集群结构”。集群系统中的结点可以按3种方式实现连接:

(1)无共享方式。指结点之间通过I/O总线连接,在大多数集群中都采用这种方式。

(2)共享磁盘方式。较小规模的商用性集群常常采用这种连接方式,其优点是当某个结点出现故障时,其它结点可以代替其工作。

容量为(100MB/s×16)/2=800MB/s,其中除以2是因为通信端口总是成对工作的。对于一个理想集群系统的体系结构,可用的结点有工作站、PC机、SMP服务器,甚至超级计算机。结点的操作系统是多用户、多任务和多线程的系统,如Linux等。结点可以是同构的,也可以是异构的。其中可用性基础设施层提供高可用性服务,单一系统映像基础设施层提供单一系统映像服务,最上层的3类子系统则用来支持该集群系统的可用性。

2构建集群系统的关键技术

不同集群系统构建的难易程度也不同。对于廉价的集群系统,仅需将一定数量的高档PC机通过快速以太网进行互连,并辅之以某些相关的免费自由软件,如

Linux,PVM,MPI等,即可得到一个性价比很不错的并行计算环境。而对于精心设计的高性能集群系统,则还需要着重考虑其它一些问题。

(3)共享存储器方式。这是一种新型的连接方式。

在其结构中,互连系统与每个结点中的存储总线相连,而在其它两种结构中,互连系统则是与结点的I/O总线相连。集群中的结点数越多,则系统的整体处理能力也就越强,但结点数的增多受限于消息传递的通信速度和容量。如果采用16端口的100MB/s的快速以太网交换机作为网络互连,由于集群的结点连接是独占端口,所以独享100MB/s带宽,对该集群系统,它的通信熊盛武:教授

基金项目:国家863计划(2002AA1Z1490);湖北省自然科学基金项目(2002AB040)资助

--

2.1可扩展性及其设计原理

如果能够通过增加系统资源以满足不断增长的对性能和功能的要求,或者能够通过减少系统资源以降低成本,则称这样的计算机系统是可扩展的。一个系统的可扩展性包含性能和功能、成本伸缩、可兼容性等几个方面系统的可扩展性一般是指:

是指通过增加系统规模(即处理(1)资源可扩展性。

投入更多存储部件(高速缓存、器数)、主存、磁盘)以及

增加软件等方法,使系统具有更高性能或更多功能。

(2)应用可扩展性。要充分开发可扩展并行计算机

PLC技术应用200例》

元/:

管控一体化

的能力,应用程序也必须是可扩展的,即,当相同程序在一个可扩展系统上运行时,其性能也能够随系统规模扩大而成比例地得到改进。该性能可以用机器规模和问题规模的可扩展性来进行度量。

点集群的MTTF要低于一个工作站的MTTF,所以它比工作站发生故障的可能性要大。然而,如果能迅速处理这些故障,即减少系统的MTTR,也同样可以提高系统的可用性。适用于集群系统的可用性技术主要有以下几个:

(3)技术可扩展性。是指系统能够适应技术环境改变的程度。它可进一步分为:代可扩展性、空间可扩展性以及异构可扩展性。

设计可扩展高性能计算机是一个复杂的工程过程,它大致包括4个设计原理:

(1)相互独立的冗余设备。改善任何系统可用性的一个重要技术是使用冗余部件。当一个主要部件发生故障时,由另一个备用部件继续提供服务。此外主要部件和备用部件之间必须相互隔离,使得它们不会因为同一个原因而发生故障。

(1)独立原理。该原理要求我们应努力使系统中的

各个组成部分相互独立。如果无法达到要求,则应尽量使相关程度减至最小并使相关性尽量清晰。这里的组成部分包括硬、软件两方面。采用独立原理的一个好处是使独立扩展(增量扩展)成为可能;另一好处是使异构可扩展性成为可能。

(2)故障接管。对于现在的商用集群来说,故障接

管可能是最重要的性能需求。一个部件发生故障时,该技术允许系统的余留部分能继续提供原来由故障部件提供的服务。

(3)恢复技术。指为了接管一个已发生故障部件的工作负载所要做的动作。有后向和前向两种恢复技术。对前者,周期地为运行在集群中的进程在稳定存储设备中保存它的一个一致状态(即检查点)。发生故障后,系统重组以与故障部件相隔离,恢复前一个检查点,然后继续正常的操作,整个过程称为卷回。在独立于应用程序的可移植方式下后向恢复较容易实现,并已被广泛运用。然而,卷回过程要有较大的时间开销,这在实时系统中是不能容忍的,这时就要考虑使用前向恢复技术。这种技术要求系统不是卷回到故障前的某个检查点而是利用故障诊断信息去重构一个有效的系统状态,并继续执行下去。前向恢复将依赖于应用程序并且可能还需要额外的硬件设备支持。

(2)平衡设计原理。该原理要求我们应努力最小化

任何性能瓶颈。应避免不平衡系统的设计,因为在这种系统中,一个慢速的部件将会导致整个系统性能下降,即使其它部件的速度再高也无济于事。此外,还应避免单点失效,即一个部件的失效将会引起整个系统崩溃。

(3)可扩展性设计原理。即在设计一个可扩展系统时,应该从一开始就将可扩展性作为主要目标,而不是设计完成后再来考虑它。可扩展性设计的两种流行方法是过渡设计和向后兼容性设计。

是指利用计算来隐藏通信时延,(4)时延隐藏原理。

也就是说,能够保证即使是在长时延不可避免的情况下系统也能达到高性能。其基本思想之一是使计算和通信在时间上重叠。可以通过4种互补的方法进行时延隐藏:预取技术、分布式一致性高速缓存、非严格的存储器一致性模型、多线程处理器。

术创新

2.3高效的通信系统

通信子系统是并行计算机系统的重要组成部分,它完成系统中各结点之间的数据传递功能,因此通信性能的好坏将直接影响到并行计算的加速比和效率。这是因为并行计算时间是由各结点的CPU时间和结点间数据通信时间两部分组成,如果通信时间所占比例过大,则必然会使得并行计算的加速比下降,从而导致整个系统的效率下降。由于一般的集群系统往往是通过普通LAN互连而成,结点之间采用TCP/IP协议进行通信,所以存在低带宽和高延迟的问题。针对第一个问题的解决办法是采用新型高速网络如快速以太网,ATM,Myrinet等,来提高网络带宽。传统TCP/IP协议的多层次结构使得复杂的缓冲管理带来了很大的网络延迟和操作系统的额外开销。相应的解决办法是,在用户空间实现通信协议、精简通信协议、采用Ac-

2.2可用性和可用性技术

在设计健壮、高可用的系统时,必需同时考虑可靠性、可用性及可维护性3个因素。而其中又以可用性标准最为重要,它同时结合了可靠性和可维护性两个概念。

2.2.1可用性概念

系统的可靠性可表示为平均无故障时间(MTTF:meantimetofailure),即在系统或其部件发生故障前正常运行的平均时间。可维护性表示为平均故障修复时间

(MTTR:meantimetorepair),即用于修复系统和在修复后恢复正常工作状态所用的平均时间。系统的可用性则可定义为可用性=MTTF/(MTTF+MTTR)。

2.2.2可用性技术

由可用性定义可知,提高系统可用性的基本方法有两种:增加MTTF或减少MTTR。如今工作站的MTTF范围已经可以达到从几百小时到几千小时。但要再进一步提高MTTF将非常困难且开销很大。多结

tiveMessage通信机制。前两种方法是针对传统通信协议在实现方法上进行的改进,而后一种方法则是一种全新的通信机制,能够更为有效地提高通信系统的性能。

2.4并行程序设计环境

广义地说,并行程序设计环境应包括硬件平台、操

嵌入式系统应用精选200例》:82-946元/年

-87-

管控一体化

中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第1-3期

;多机并行处理及其互联”;微计算机信息2004年,1期.[2]康钦马,王勇“

作系统和并行程序语言、编程、编译、调试及性能分析工具等,狭义的并行程序设计环境则仅指系统核心之上的工具软件部分。作为一个并行程序的支撑境,至少应包括:①并行语言支持或并行操作库函数支持;

②一种或多种并行编程模型。我们知道,集群系统各结点间连接结构的区别取决于有无共享存储器的存在。如果系统中各结点间没有共享内存支持而只是通过消息传递机制来实现数据通信,那么消息传递就成为并行程序设计环境构造的基础。这种环境现在常用的有PVM,MPI,EXPRESS,Linda等。对于具有共享存储器的集群系统,则应采用共享变量模型来进行并行编程。需要注意的是,在前一种集群系统上也可以采用共享变量的并行编程模型,这时需要使用一种称为虚拟共享存储器的技术,利用它在基于分布存储器的集群系统中,实现物理上分布但逻辑上共享的存储系统。相应的支撑软件有ThreadMarksDSM,MidwayDSM等。

2.5资源管理与负载平衡

作者简介:熊盛武,男(1967-)教授,武汉理工大学计算机学院。现从事机器学习,集群计算的研究。王鲁,男(1981-)硕士研究生,武汉理工大学计算机学院。现从事集群计算,演化计算的研究;杨婕,女(1981-)硕士研究生,武汉理工大学自动化学院。现从事计算机控制与信息系统集成的研究,E-mail:abcdlu@sohu。com(430070武汉武汉理工大学计算机学院)熊盛武王鲁

(430070武汉理工大学自动化学院)杨婕

(WuhanUniversityOfTechnology,Wuhan,430070)Xiong,ShengwuWang,Lu

(投稿日期:2005.7.1)(修稿日期:2005.7.13)

如何有效地管理系统中的所有资源是集群系统的一个非常重要的方面,常用的并行编程环境PVM,MPI等对这方面的支持都比较弱,仅提供了统一的虚拟机。主要原因是结点的操作系统是单机系统,并不提供全局服务支持,同时也缺少有效的全局共享方法。因此,就有必要在结点操作系统和并行编程环境之间加入一些中间件,即所谓的集群操作系统,来解决对系统中所有资源的调度,其中包括组调度、资源分配和并行文件系统等。负载平衡也是并行处理中的一个重要问题,其解决的好坏将直接影响到系统的性能。负载平衡技术的核心是调度算法,即将各个任务比较均衡地分布到不同的处理结点进行并行处理以使各结点的利用率达到最大。除此之外,在设计负载平衡系统时,还需要考虑诸如决策时机、调度系统模式、负载指标的设计与收集、负载调度策略等问题。比较成熟的负载平衡系统有美国Wisconsin-Madison大学的Condor系统和加拿大Platform公司的LSF系统。它们的特点是只需对原有系统稍加改动,即可使之与并行程序设计环境结合起来,提供负载平衡功能。

(接第158页)Weblogic7.0,数据库是Oracle9i,具有速度快、稳定、扩展性好、易维护的特点。e-WarehouseMS系统的应用表明基于J2EE规范的四层结构能很好地

在计算机技术日益迅速发展的适应Web开发的需要。

今天,基于J2EE平台上的应用将进一步深入研究和完善,如EJB3.0规范的推出,已经越开越体现出J2EE的优势。

进一步的工作是数据仓库和决策支持系统的研究与构建,以更好的为购物超市企业提供科学的数据管理与效益分析,提供合理的投资与风险控制决策。

致谢:该文得到了湖北省科技攻关计划项目基金的支持,在此特予致谢。

参考文献:

[1]王映.基于UML的J2EE体系结构系统建模[J].江南大学学报(自然科学版),2003,2(5):462 ̄465

[2]林枫,王月忠.智能化锂离子电池管理系统的设计与实现[J].微计算机信息,2005,3:78-80

作者简介:陈世强(1974-),男,湖北宜昌人,土家族,硕士,讲师,主要研究方向为计算机软件、计算机网络与安全。E_mail:chensq8808@126.com;谢坤武(1970-),男,湖北恩施人,汉族,硕士,副教授,主要研究方向为数据库、软件开发方法。

Authorbriefintroduction:Chen,Shiqiang(1974-).Male.BorninYichang,HubeiProvince.Tujianational-ity.Master.Lecturer.Mainresearchdirectioniscomput-3结束语

ersoftware,computernetworkandsecurity.XIEKunwu

集群计算机系统作为当前世界上并行处理的热

(1970-).Male.BorninEnshi,HubeiProvince.Han

点和主流,具有许多其它系统不可替代的优势:性价比

nationality.Master.Associateprofessor.Mainresearch

高、可扩展性好、高可用性和高能用性。尤其是PC并

directionisdatabase,softwaredevelopmentapproach.

行集群系统以它系统开发周期短、用户投资风险小、

(445000湖北恩施湖北民族学院计算机科学系)

节约系统资源、用户编程方便等优点,非常适合我国陈世强谢坤武国情,它的构建将给我国各行各业提供极为廉价的高(Dept.ofComputerScience,HubeiInstituteforNa-性能并行计算资源,所以对我国的高性能科学计算、商tionalities,HubeiEnshi,445000,China)Chen,业领域数据处理、互联网应用以及教育事业发展等都将具有重要而深远的意义。

参考文献:

[1]黄恺,徐志伟《;可扩展并行计算技术,结构与编程》;机械工业出版社.--

ShiqiangXie,Kunwu

通信地址:(445000湖北省恩施市湖北民族学院信息工程学院办公室)陈世强

(投稿日期:2005.7.1)(修稿日期:2005.7.13)

元/:PLC技术应用200例》

管控一体化

文章编号:1008-0570(2006)01-3-0086-03

中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第1-3期

构建高性能集群计算机系统的关键技术

KeyTechnologiesUsedForConstructHigh-performanceComputerClusterSystem

(武汉理工大学)熊盛武

王鲁杨婕

Xiong,ShengwuWang,Lu

摘要:高性能计算机技术是衡量一个国家科技水平及综合国力的重要标志之一,目前世界上一些发达国家都在争相投入巨额资

金对它进行开发和研究.PC集群计算机就是最廉价的高性能计算机.着重讨论了集群计算机系统构建中的一些关键技术,如可扩展性、可用性、资源管理、负载平衡和并行程序设计环境等,同时,也根据集群系统的特点提出了它在不同领域中的实用意义.关键词:集群计算机系统;并行计算;可用性;可扩展性

文献标识码:A中图分类号:TP311

Abstract:High-performancecomputertechniqueisoneoftheimportantsignsofweighingacountry’sscienceandtechnicallevelandsyntheticalnationalpower.Now,somedevelopedcountriesinworldarepositivelyinvestinghugefundsforitsdevelopmentandstudy.PCclustersystemisthecheapestone,Thepaperemphaticallydiscussessomekeytechnologiesusedfordeployingaclustersystem,suchasscalability,availability,resourcemanagement,loadbalancingandparallelprogrammingenvironmentetc.Atthesametime,accordingtocharacteristicsofaclustersystem,itpresentthepracticalsignificanceofsuchasystemindiversefields.Keywords:clustercomputersystem;parallelcomputing;availability;scalability

1集群计算机系统

集群计算机是指利用高速通信网络将一组高档工作站或PC按某种结构连接起来,在并行程序设计及可视化人机交互集成开发环境支持下,统一调度,协调处理,实现高效并行处理的系统.由于集群计算机具有投资风险小,可扩展性好,可继承现有软硬件资源和开发周期短、容易编程等突出特点,目前已很快成为并行处理的热点和主流,据专家预测“:未来的高性能计算机和超级服务器都将基于集群结构”。集群系统中的结点可以按3种方式实现连接:

(1)无共享方式。指结点之间通过I/O总线连接,在大多数集群中都采用这种方式。

(2)共享磁盘方式。较小规模的商用性集群常常采用这种连接方式,其优点是当某个结点出现故障时,其它结点可以代替其工作。

容量为(100MB/s×16)/2=800MB/s,其中除以2是因为通信端口总是成对工作的。对于一个理想集群系统的体系结构,可用的结点有工作站、PC机、SMP服务器,甚至超级计算机。结点的操作系统是多用户、多任务和多线程的系统,如Linux等。结点可以是同构的,也可以是异构的。其中可用性基础设施层提供高可用性服务,单一系统映像基础设施层提供单一系统映像服务,最上层的3类子系统则用来支持该集群系统的可用性。

2构建集群系统的关键技术

不同集群系统构建的难易程度也不同。对于廉价的集群系统,仅需将一定数量的高档PC机通过快速以太网进行互连,并辅之以某些相关的免费自由软件,如

Linux,PVM,MPI等,即可得到一个性价比很不错的并行计算环境。而对于精心设计的高性能集群系统,则还需要着重考虑其它一些问题。

(3)共享存储器方式。这是一种新型的连接方式。

在其结构中,互连系统与每个结点中的存储总线相连,而在其它两种结构中,互连系统则是与结点的I/O总线相连。集群中的结点数越多,则系统的整体处理能力也就越强,但结点数的增多受限于消息传递的通信速度和容量。如果采用16端口的100MB/s的快速以太网交换机作为网络互连,由于集群的结点连接是独占端口,所以独享100MB/s带宽,对该集群系统,它的通信熊盛武:教授

基金项目:国家863计划(2002AA1Z1490);湖北省自然科学基金项目(2002AB040)资助

--

2.1可扩展性及其设计原理

如果能够通过增加系统资源以满足不断增长的对性能和功能的要求,或者能够通过减少系统资源以降低成本,则称这样的计算机系统是可扩展的。一个系统的可扩展性包含性能和功能、成本伸缩、可兼容性等几个方面系统的可扩展性一般是指:

是指通过增加系统规模(即处理(1)资源可扩展性。

投入更多存储部件(高速缓存、器数)、主存、磁盘)以及

增加软件等方法,使系统具有更高性能或更多功能。

(2)应用可扩展性。要充分开发可扩展并行计算机

PLC技术应用200例》

元/:

管控一体化

的能力,应用程序也必须是可扩展的,即,当相同程序在一个可扩展系统上运行时,其性能也能够随系统规模扩大而成比例地得到改进。该性能可以用机器规模和问题规模的可扩展性来进行度量。

点集群的MTTF要低于一个工作站的MTTF,所以它比工作站发生故障的可能性要大。然而,如果能迅速处理这些故障,即减少系统的MTTR,也同样可以提高系统的可用性。适用于集群系统的可用性技术主要有以下几个:

(3)技术可扩展性。是指系统能够适应技术环境改变的程度。它可进一步分为:代可扩展性、空间可扩展性以及异构可扩展性。

设计可扩展高性能计算机是一个复杂的工程过程,它大致包括4个设计原理:

(1)相互独立的冗余设备。改善任何系统可用性的一个重要技术是使用冗余部件。当一个主要部件发生故障时,由另一个备用部件继续提供服务。此外主要部件和备用部件之间必须相互隔离,使得它们不会因为同一个原因而发生故障。

(1)独立原理。该原理要求我们应努力使系统中的

各个组成部分相互独立。如果无法达到要求,则应尽量使相关程度减至最小并使相关性尽量清晰。这里的组成部分包括硬、软件两方面。采用独立原理的一个好处是使独立扩展(增量扩展)成为可能;另一好处是使异构可扩展性成为可能。

(2)故障接管。对于现在的商用集群来说,故障接

管可能是最重要的性能需求。一个部件发生故障时,该技术允许系统的余留部分能继续提供原来由故障部件提供的服务。

(3)恢复技术。指为了接管一个已发生故障部件的工作负载所要做的动作。有后向和前向两种恢复技术。对前者,周期地为运行在集群中的进程在稳定存储设备中保存它的一个一致状态(即检查点)。发生故障后,系统重组以与故障部件相隔离,恢复前一个检查点,然后继续正常的操作,整个过程称为卷回。在独立于应用程序的可移植方式下后向恢复较容易实现,并已被广泛运用。然而,卷回过程要有较大的时间开销,这在实时系统中是不能容忍的,这时就要考虑使用前向恢复技术。这种技术要求系统不是卷回到故障前的某个检查点而是利用故障诊断信息去重构一个有效的系统状态,并继续执行下去。前向恢复将依赖于应用程序并且可能还需要额外的硬件设备支持。

(2)平衡设计原理。该原理要求我们应努力最小化

任何性能瓶颈。应避免不平衡系统的设计,因为在这种系统中,一个慢速的部件将会导致整个系统性能下降,即使其它部件的速度再高也无济于事。此外,还应避免单点失效,即一个部件的失效将会引起整个系统崩溃。

(3)可扩展性设计原理。即在设计一个可扩展系统时,应该从一开始就将可扩展性作为主要目标,而不是设计完成后再来考虑它。可扩展性设计的两种流行方法是过渡设计和向后兼容性设计。

是指利用计算来隐藏通信时延,(4)时延隐藏原理。

也就是说,能够保证即使是在长时延不可避免的情况下系统也能达到高性能。其基本思想之一是使计算和通信在时间上重叠。可以通过4种互补的方法进行时延隐藏:预取技术、分布式一致性高速缓存、非严格的存储器一致性模型、多线程处理器。

术创新

2.3高效的通信系统

通信子系统是并行计算机系统的重要组成部分,它完成系统中各结点之间的数据传递功能,因此通信性能的好坏将直接影响到并行计算的加速比和效率。这是因为并行计算时间是由各结点的CPU时间和结点间数据通信时间两部分组成,如果通信时间所占比例过大,则必然会使得并行计算的加速比下降,从而导致整个系统的效率下降。由于一般的集群系统往往是通过普通LAN互连而成,结点之间采用TCP/IP协议进行通信,所以存在低带宽和高延迟的问题。针对第一个问题的解决办法是采用新型高速网络如快速以太网,ATM,Myrinet等,来提高网络带宽。传统TCP/IP协议的多层次结构使得复杂的缓冲管理带来了很大的网络延迟和操作系统的额外开销。相应的解决办法是,在用户空间实现通信协议、精简通信协议、采用Ac-

2.2可用性和可用性技术

在设计健壮、高可用的系统时,必需同时考虑可靠性、可用性及可维护性3个因素。而其中又以可用性标准最为重要,它同时结合了可靠性和可维护性两个概念。

2.2.1可用性概念

系统的可靠性可表示为平均无故障时间(MTTF:meantimetofailure),即在系统或其部件发生故障前正常运行的平均时间。可维护性表示为平均故障修复时间

(MTTR:meantimetorepair),即用于修复系统和在修复后恢复正常工作状态所用的平均时间。系统的可用性则可定义为可用性=MTTF/(MTTF+MTTR)。

2.2.2可用性技术

由可用性定义可知,提高系统可用性的基本方法有两种:增加MTTF或减少MTTR。如今工作站的MTTF范围已经可以达到从几百小时到几千小时。但要再进一步提高MTTF将非常困难且开销很大。多结

tiveMessage通信机制。前两种方法是针对传统通信协议在实现方法上进行的改进,而后一种方法则是一种全新的通信机制,能够更为有效地提高通信系统的性能。

2.4并行程序设计环境

广义地说,并行程序设计环境应包括硬件平台、操

嵌入式系统应用精选200例》:82-946元/年

-87-

管控一体化

中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第1-3期

;多机并行处理及其互联”;微计算机信息2004年,1期.[2]康钦马,王勇“

作系统和并行程序语言、编程、编译、调试及性能分析工具等,狭义的并行程序设计环境则仅指系统核心之上的工具软件部分。作为一个并行程序的支撑境,至少应包括:①并行语言支持或并行操作库函数支持;

②一种或多种并行编程模型。我们知道,集群系统各结点间连接结构的区别取决于有无共享存储器的存在。如果系统中各结点间没有共享内存支持而只是通过消息传递机制来实现数据通信,那么消息传递就成为并行程序设计环境构造的基础。这种环境现在常用的有PVM,MPI,EXPRESS,Linda等。对于具有共享存储器的集群系统,则应采用共享变量模型来进行并行编程。需要注意的是,在前一种集群系统上也可以采用共享变量的并行编程模型,这时需要使用一种称为虚拟共享存储器的技术,利用它在基于分布存储器的集群系统中,实现物理上分布但逻辑上共享的存储系统。相应的支撑软件有ThreadMarksDSM,MidwayDSM等。

2.5资源管理与负载平衡

作者简介:熊盛武,男(1967-)教授,武汉理工大学计算机学院。现从事机器学习,集群计算的研究。王鲁,男(1981-)硕士研究生,武汉理工大学计算机学院。现从事集群计算,演化计算的研究;杨婕,女(1981-)硕士研究生,武汉理工大学自动化学院。现从事计算机控制与信息系统集成的研究,E-mail:abcdlu@sohu。com(430070武汉武汉理工大学计算机学院)熊盛武王鲁

(430070武汉理工大学自动化学院)杨婕

(WuhanUniversityOfTechnology,Wuhan,430070)Xiong,ShengwuWang,Lu

(投稿日期:2005.7.1)(修稿日期:2005.7.13)

如何有效地管理系统中的所有资源是集群系统的一个非常重要的方面,常用的并行编程环境PVM,MPI等对这方面的支持都比较弱,仅提供了统一的虚拟机。主要原因是结点的操作系统是单机系统,并不提供全局服务支持,同时也缺少有效的全局共享方法。因此,就有必要在结点操作系统和并行编程环境之间加入一些中间件,即所谓的集群操作系统,来解决对系统中所有资源的调度,其中包括组调度、资源分配和并行文件系统等。负载平衡也是并行处理中的一个重要问题,其解决的好坏将直接影响到系统的性能。负载平衡技术的核心是调度算法,即将各个任务比较均衡地分布到不同的处理结点进行并行处理以使各结点的利用率达到最大。除此之外,在设计负载平衡系统时,还需要考虑诸如决策时机、调度系统模式、负载指标的设计与收集、负载调度策略等问题。比较成熟的负载平衡系统有美国Wisconsin-Madison大学的Condor系统和加拿大Platform公司的LSF系统。它们的特点是只需对原有系统稍加改动,即可使之与并行程序设计环境结合起来,提供负载平衡功能。

(接第158页)Weblogic7.0,数据库是Oracle9i,具有速度快、稳定、扩展性好、易维护的特点。e-WarehouseMS系统的应用表明基于J2EE规范的四层结构能很好地

在计算机技术日益迅速发展的适应Web开发的需要。

今天,基于J2EE平台上的应用将进一步深入研究和完善,如EJB3.0规范的推出,已经越开越体现出J2EE的优势。

进一步的工作是数据仓库和决策支持系统的研究与构建,以更好的为购物超市企业提供科学的数据管理与效益分析,提供合理的投资与风险控制决策。

致谢:该文得到了湖北省科技攻关计划项目基金的支持,在此特予致谢。

参考文献:

[1]王映.基于UML的J2EE体系结构系统建模[J].江南大学学报(自然科学版),2003,2(5):462 ̄465

[2]林枫,王月忠.智能化锂离子电池管理系统的设计与实现[J].微计算机信息,2005,3:78-80

作者简介:陈世强(1974-),男,湖北宜昌人,土家族,硕士,讲师,主要研究方向为计算机软件、计算机网络与安全。E_mail:chensq8808@126.com;谢坤武(1970-),男,湖北恩施人,汉族,硕士,副教授,主要研究方向为数据库、软件开发方法。

Authorbriefintroduction:Chen,Shiqiang(1974-).Male.BorninYichang,HubeiProvince.Tujianational-ity.Master.Lecturer.Mainresearchdirectioniscomput-3结束语

ersoftware,computernetworkandsecurity.XIEKunwu

集群计算机系统作为当前世界上并行处理的热

(1970-).Male.BorninEnshi,HubeiProvince.Han

点和主流,具有许多其它系统不可替代的优势:性价比

nationality.Master.Associateprofessor.Mainresearch

高、可扩展性好、高可用性和高能用性。尤其是PC并

directionisdatabase,softwaredevelopmentapproach.

行集群系统以它系统开发周期短、用户投资风险小、

(445000湖北恩施湖北民族学院计算机科学系)

节约系统资源、用户编程方便等优点,非常适合我国陈世强谢坤武国情,它的构建将给我国各行各业提供极为廉价的高(Dept.ofComputerScience,HubeiInstituteforNa-性能并行计算资源,所以对我国的高性能科学计算、商tionalities,HubeiEnshi,445000,China)Chen,业领域数据处理、互联网应用以及教育事业发展等都将具有重要而深远的意义。

参考文献:

[1]黄恺,徐志伟《;可扩展并行计算技术,结构与编程》;机械工业出版社.--

ShiqiangXie,Kunwu

通信地址:(445000湖北省恩施市湖北民族学院信息工程学院办公室)陈世强

(投稿日期:2005.7.1)(修稿日期:2005.7.13)

元/:PLC技术应用200例》


相关内容

  • 基于计算机集群技术的经济数据处理系统构建
  • 第22卷第6期 vd.22 No.6 统计与信息论坛 Statistics&InformationFomm 2007年11月 Nov,,2007 [统计理论与方法] 基于计算机集群技术的经济数据处理系统构建 阮敬 (首都经济贸易大学北京经济数据处理与计算机仿真实验室,北京100026) 摘要 ...

  • 高性能体系结构
  • 高性能计算的概念 高性能计算(HPC )是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算机能力来处理大型计算问题. 基本原理 高性能计算方法的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点)均可同时参与问题的解决,从而显著缩短了解决整个问 ...

  • 智慧校园数据中心方案建议书
  • 智慧校园数据中心 方案建议书 目录 1项目概述 . ............................................................................................................................ ...

  • 重庆市电子信息产业三年振兴规划
  • 重庆市电子信息产业三年振兴规划 渝府发[2012]84号 重庆市人民政府 关于印发重庆市电子信息产业 三年振兴规划的通知 各区县(自治县)人民政府,市政府各部门,有关单位: <重庆市电子信息产业三年振兴规划>已经市政府第129次常务会议通过,现印发给你们,请认真组织实施. 重庆市人民 政 ...

  • 分布式架构在银行系统的应用分析
  • 分布式架构在银行系统的应用分析 1 一.概述 (一) 分布式架构简介 一般可以将架构分为两类,一类是以垂直扩展(Scale up)为主的架构,如通过增加单机配置,或者将中低端设备升级成为高端设备,用以提升系统的处理能力,称之为集中式架构,早期的哑终端主机架构是典型代表:一类是以水平扩展(Scale ...

  • 云计算技术国内外发展现状
  • 后台. 云计算改变了单个计算机的功能,降低对网络的要求,由于终端不考虑应用的具体实现过程,扩展应用变得更加容易,高可扩展性是云计算的显著特征.应用在服务器端实现和部署,可以轻松实现不同设备间的数据与应用共享,并以统一的方式(例如通过浏览器)在终端实现与用户的交互. 三.国外云计算技术.产业现状及发展 ...

  • 高性能计算系统设计方案
  • 高性能计算系统 方案设计 第1章 需求分析 1.1 高性能计算的和大规模数据处理的应用 高性能计算作为一种先进的科研手段,在国内的应用发展很快,得到了普遍的重视,近年来国家投入逐年加大. 高性能计算的应用条件已经成熟,表现在: ◆ 价格相对低廉的高性能机群系统为高性能计算应用提供了物质基础: ◆ 高 ...

  • 面向云平台的集群运维管理方法研究_罗芸
  • ··························· O运营关注· perationFocus 面向云平台的集群运维管理方法研究 罗芸张晓川朱建中 中国移动广东公司业务支持中心工程师 中国移动广东公司业务支持中心高级工程师中国移动广东公司业务支持中心工程师 摘要:介绍一种适应当前通用云平台的运维管 ...

  • 主流云计算平台的个性特征
  • 云计算平台的共性特征 摘要 随着云计算的概念渐渐的被人们所熟知,云计算已经不再是天边的一朵"云"了,我们更多的是学习.使用并改造它. 针对当前的云计算概念,Amazon .Google 和Microsoft 都相继退出了自己云计算平台,这是对云计算的一种商业实现.本文对当前这三种 ...