服务器集群技术方案
集群(Cluster)技术是发展高性能计算机的一项技术。它是一组相互独立的计算机,利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。其出发点是提供高可靠性、可扩充性和抗灾难性。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一台服务器发生故障时,它所运行的应用程序将由其它服务器自动接管。在大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内的任一系统上运行的服务都可被所有的网络客户使用。采用集群系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力。
当前主流的集群方式包括以下几种: 1. 服务器主备集群方式
服务器主-备方式由一台服务器在正常运行状态提供对外服务,其它集群节点作为备份机,备份机在正常状态下不接受外部的应用请求,实时对生产机进行检测,当生产机停机时才会接管应用服务,因此设备利用率最高可达50%。主备方式集群如下图所示,节点2为正常提供服务的服务器,运行多个应用(pkgA,pkgB..),节点1平时只监控节点2的状态,不对外提供服务,当节点2出现故障时,节点1将把两个应用接管过来,并对外提供服务。
图表 错误!文档中没有指定样式的文字。-1主备方式集群
2. 服务器互备份集群方式
多台服务器组成集群,每台服务器运行独立的应用,同时作为其它服务器的备份机,当主应用中断,服务将被其它集群节点所接管,接管服务的节点将运行
自身应用和故障服务器的应用,这种方式各集群节点的硬件资源均可被应用于对外服务。互备方式集群如下图所示,节点1和节点2分别运行1个或多个不同的应用,但只对外提供本地的主应用,两个节点之间互相进行监控,集群中任何一个节点出现故障后,另一个节点把故障节点的主应用接管过来,所有应用服务由一台服务器完成。
图表 错误!文档中没有指定样式的文字。-2互备份方式集群
这种方式的主要缺点在于:
➢ 由于需要重新启动数据库核心进程,无法保证数据库系统连续不间断地
运行
➢ 在系统切换的过程中,客户端与服务器之间的数据库连接会中断,需要
重新进行数据库的连接和登录工作
➢ 由于数据库系统只能在一台服务器上运行,另一台服务器无法分担系统
的负载,实际上造成了客户投资的浪费。在有些系统中,为了解决双机负载分担的问题,将应用系统人为分割为两个数据库系统,分别在两台服务器上运行。这种方式在一定程度上解决了负载分担的问题,但给系统管理、统计分析等业务处理带来了很多额外的复杂性 3. 服务器并行集群方式
集群有多台服务器构成,同时提供相同的应用,可以实现多台服务器之间的负载均衡,提供大访问量的应用需求,如Web访问及数据库等应用,服务器并行集群方式一般由应用系统自身(如OracleRAC、中间件负载均衡等)或外部专用服务器负载均衡设备实现。
图表 错误!文档中没有指定样式的文字。-3服务器并行方式集群
以下是上述群集技术对比表:
集群技术 主备集群技术 互备集群技术 并行集群技术 资源利用率 资源有效利用率低 资源有效利用率高 资源有效利用率高 故障收敛时间 相对较慢 相对较慢 快 可靠性 较高 较高 高 图表 错误!文档中没有指定样式的文字。-4群集技术对比表
Real Application Cluster(以前称作Oracle Parallel Server,OPS)用来在集群环境下实现多机共享数据库,以保证应用的高可用性。同时可以自动实现并行处理及均分负载,还能实现数据库在故障时的容错和无断点恢复。
Real Application Cluster为大多数关键业务要求的数据库环境提供了极高的性能和完善的纠错功能。Real Application Cluster允许集群系统或大型并行系统中的多个节点共享同一物理数据库。Real Application Cluster可以自动进行负载平衡、故障修复和规划停机时间,以支持高可用性应用程序。它还显著地提高了大型数据仓库和决策支持系统的性能。通过与并行查询选件结合,它还提供了节点间的并行性和节点内的并行性,以得到更高的性能。
多服务器的Cluster(集群)结构,因其具有高可靠性、大容量共享磁盘支持、以及无断点的故障恢复,越来越受到业界的关注,越来越多的硬件厂商都相继推出自己的Cluster机种和机型,它已经成为硬件平台的一个新的发展方向。
Oracle公司在1989年率先推出Parallel Server选件,以支持这种体系结构(Oracle6.2版)。随着Cluster技术自身的成熟,以及Oracle对这一技术的经验,Real Application Cluster目前已能支持几乎所有的Cluster集群系统。在share-nothing或shared-disk模式的集群系统上,Real Application Cluster
均可以实现多节点共享数据库,并自动并行处理及均分负载,在数据库故障时进行容错和无断点恢复处理。
Oracle提供一个通用的、集成的分布式锁定管理器(DLM)替代了原来的,由不同操作系统厂商提供的锁管理器,从而提高了在大多数工作平台上的执行性能和可移植性。这些使得Oracle并行服务器的运行速度显著加快。Oracle集成的DLM使Oracle并行服务器能够跨平台工作。
当并行服务器中某节点失效,透明的应用程序容错能够把用户自动转接到另一节点上继续运行,应用程序在用户没有察觉的情况下继续执行。这使周期性和非周期性发生故障的系统增大了连续可用性。进程的失效可以完全透明地转移到另一节点上去,通过适当地配置,可以指定所有查询都在客户端进行缓存,这样它们便可以在转移后的节点上重新设置。同时,还可以在没有失效时预先与容错节点建立一个连接,这样可以减少容错时在连接所花的时间。
Oracle不仅支持第一代、第二代并行处理技术,还最先支持第三代多节点并行处理机。能够在Cluster Mode 3及MPP结构的各节点上实现并行处理,均分负载。Oracle并行处理技术的另一大优势在于,无论在任何平台上,从单机到并行处理机,从OLTP应用到OLAP应用,Oracle数据库均为同一核心,因此在不同平台之间应用系统可平滑移植,提高了开发效率,降低了维护费用。目前,Oracle并行服务器技术在业界处于绝对领先地位,已在全球数千个实际应用系统中运行,经过十多年的不断完善和发展,其可靠性及稳定性已得到彻底检验。
与双机热备份方式相比,Oracle10g Real Application Cluster 并行服务器方式有以下优点:
➢ 各服务器共享一个数据库,在正常运行时可以进行负载分担,无需考虑
应用数据的人为分割
➢ 并行服务器方式对应用完全透明,在应用程序设计和开发的过程中也不
需要进行特殊编程,简化了开发的复杂程度,同时今后系统扩展也无需修改应用程序
➢ 不需要重新启动数据库核心进程,缩短了故障造成的停机时间 总结以上ORACLE RAC的功能和特点,ORACLE RAC主要具有如下好处: 1. 可伸缩性
用户或者中间层应用服务器客户,可以通过虚拟数据库服务名连接到数据库上。Oracle在集群中多个节点之间自动平衡用户负载。不同节点上的Real Application Clusters数据库实例预订所有数据库服务或者部分子集数据库服务。这使得DBA高度灵活地选定,连接到特定数据库服务的特定应用程序客户是否可以连接到某些或者全部的数据库节点。
虽然每一个节点有一个不同的物理IP地址时,应用客户仍可以在一个逻辑数据库服务名的水平上进行连接。因此客户端对于不相关的事情如多服务器的多个地址可以毫不关心。
随着业务的增长,电子商务可以从容地增加处理能力。Cache Fusion体系结构直接地利用新节点的CPU和内存资源。DBA无需用手工对数据重新分区。这个优点是这种体系结构的副产品,因为有透明度的数据存取是Cache Fusion的一项基本功能。
Cache Fusion体系机构自动适应快速变化的电子商务需求及随之而来的工作负荷的改变。DBA也不必因为工作负荷变化而对数据进行手工的重新分区。Real Application Clusters通过动态地重新分配数据库资源,从而在节点之间用最小化的磁盘I/O和低的延迟通信来优化利用集群系统资源。这使得Real Application Clusters可以从容实现增加的应用吞吐量和优化的响应时间。
2. 高可用性
Real Application Clusters提供了真正的高可用性解决方案,关键的突破是在大多数数据库恢复期间能提供完整的数据库访问。这使得Real Application Clusters成为电子商务应用所要求的24x7可用性的最佳平台。
Real Application Clusters在高可用性上在三个关键领域胜出:
➢ 提供了数据库恢复期间的数据块访问 ➢ 透明的失效转移对最终用户屏蔽了系统失效 ➢ N-1节点失效的容错能力
只要有一个数据库节点幸存,Real Application Clusters就能够提供完全的数据库访问和相对不间断的操作。
3. 可管理性
Real Application Clusters实现了真正意义上的一个单系统访问数据库,它提供了从任何节点到所有磁盘设备和远程高速缓存进行无缝数据访问的能力。此单系统映像延伸到所有数据库管理操作。安装、配置、备份、升级以及监控等操作只需进行一次,然后会自动发布到集群中所有节点上去。各种Oracle工具(如Oracle Universal Installer、Database Configuration Assistant以及Recovery Manager)将发现集群数据块中所有不同的节点并以它们为目标分配给想得到的任务。
在Oracle 10g的Real Application Cluster技术中,全面采用了Oracle独特的Cache Fusion(缓存熔合)技术,消除了多台服务器争用数据时产生的碰撞(Ping)现象,极大的提高了Cluster系统的可扩展性。使Cluster系统可以支持更多的节点,而且数据库应用完全不需要做任何复杂的修改或特殊设计就可以良好的运行在Cluster系统上,并且充分发挥多节点的处理性能。
根据本次项目服务器系统需求,结合具体情况,我们将针对不同的业务系统采用不同的集群方式,满足业务系统的应用高性能和高可靠性要求。
数据库服务器系统采用两台P550,通过集群技术实现双机冗余。操作系统通过HA来实现,数据库通过ORACLE RAC集群技术实现。说明如下:
一、硬件方案
12、数据库服务器 8*4.2GHZ/32GB/2*146GB/2*HBA/2*1000兆集成网口/2*1000兆 P550(8C/32G) 光口网卡/异步卡、心跳线/AIX6.1/HACMP双机软件/P6 550用控制台和机柜 P550 8204-E8A Server 1:8204 Model E8A 265 AIX Partition Specify 1877 Op Panel Cable for Rack-mount Drawer w/3.5 DASD 2146 Primary OS - AIX 3125 Serial-to-Serial Port Cable for Rack/Rack 3647 146GB 15K RPM SAS Disk Drive 3925 Serial Port Converter Cable, 9-Pin to 25-Pin 4532 4096MB (2x2048MB) RDIMMs, 667 MHz, 1Gb DRAM 4651 Rack Indicator, Rack #1 4966 2-core 4.2 GHz POWER6 Processor Card 4986 One Processor Activation for Processor Feature #4966 5005 Software Preinstall 5623 Dual-Port 1Gb Integrated Virtual Ethernet Daughter Card 2 1 1 1 1 1 2 1 8 1 4 8 1 1 数量
A0CV 5692-A6P B8RK 5765-F62 B8NE 5765-G62 B8TB 5723 2-Port Asynchronous EIA-232 PCI Adapter 5743 SATA Slimline DVD-ROM Drive 5768 1GB ETHERNET FIBER 2-PORT 5774 4 Gigabit PCI Express Dual Port Fibre Channel Adapter 6458 Power Cable -- Drawer to IBM PDU, 14-foot, 250V/10A 7146 IBM/OEM Rack-Mount Drawer Rail Kit 7360 IBM Rack-mount Drawer Bezel and Hardware 7707 Power Supply, 1700 Watt AC, Hot-swap, Base and Redundant 7982 PowerVM Standard 8308 DASD/Media Backplane for 3.5 DASD/SATA DVD/Tape 9722 Language Group Specify - Simplified Chinese (PRC) IBM Power Software HIPO 537 8204-E8A Routing Code 967 Base OS 1061 OS Specify code for 6.1 2215 IBM PowerHA 5.5 5000 Preload 5987 Traditional Chinese Preinstall PII Language 9210 HW is Rack integrated IBM POWERHA Reg:3Yr IBM POWERHA Base SWMA per proc 3Y Reg SMALL System Software 1101 DVD Process No Charge 1404 VIOS Expansion Pack 2201 Virtual I/O Server 3435 DVD/CD-ROM System Software 967 AIX V6.1 Standard Edition 968 AIX V6 Expansion Pack 970 AIX V6 Update CD 1100 DVD Process Charge 2215 IBM POWERHA V5.5 3435 DVD/CD-ROM SPO for Linux on POWER 1005 Process no-charge 1479 System p AVE x86 Media 3410 CD-ROM IBM PowerVM Lx86 for x86 Linux Per server IBM POWERHA V5 Per Proc with 1 Year SW Maint SMALL AIX 6 for POWER V6.1 Per Processor E5 AIX 6 for POWER V6.1 1 1 1 1 2 1 1 2 8 1 1 1 1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 8 1 8 5313-HPO 5662-HMP 5692-A6P 5692-LOP 5765-AVE
5765-PVS B9HC 5773-SM3 HMC 7042-CR4 T42 7014-T42 Rack 1:Rack Model T42 233 Rack Content Specify: 7316/TF3 - 1EIA 284 Rack Content Specify: 7042/CR4 1U 288 Rack Content Specify: 8204/E8A - 4EIA 4651 Rack Indicator, Rack #1 6069 Front door (Black) for High Perforation (2m racks) 6098 Side Panel (Black) PDU to Wall Powercord 14', 200-240V/48A, UTG0247, IEC309 6491 63A P+N+G 7188 Power Dist Unit-Side Mount, Universal UTG0247 Connector Power Distrib Unit Specify - Base/Side Mount, Universal 9188 UTG0247 Connector 9722 Language Group Specify - Simplified Chinese (PRC) HMC 1:7042-CR4 Rack-mounted Hardw.Mgmt.Console 31 No modem 962 Hardware Management Console Licensed Machine Code v7 1924 2GB (2x1GB) PC2-5300 CL5 ECC DDR2 Chipkill FB-DIMM 667MHz 4651 Rack Indicator, Rack #1 4767 HMC CR4 Redundant Power Supply, 670 W 5767 PCIe 1Gb Ethernet UTP 2Port 6458 Power Cable -- Drawer to IBM PDU, 14-foot, 250V/10A Ethernet Cable, 6M, Hardware Management Console to System 7801 Unit 9069 HMC/Server Order Linkage Indicator 9722 Language Group Specify - Simplified Chinese (PRC) Initial Software Support 3 Year 569 Per Processor Software Support 3 Year 7000 Agreement for MCRSA PowerVM Standard Edition Per Processor large system Software Maintenance for AIX, 3 Year 462 E5 3 Yr SWMA for AIX per Processor Reg/Ren 1 8 1 8 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 4 1 2 2 1 1 1 5773-RS3
二、软件方案
(1)安装配置HACMP集群 所需购买的软件
序软件名称 号 版本 方式 操作系统数量 名 1 HACMP 5.4 数据库集群 AIX5.3 1 安装配置HACMP集群:
本次HACMP集群提供Oracle RAC使用的并行卷组和逻辑卷,虚拟ip等其他资源由Oracle CRS自行创建。
上述软件的配置方法,见附件。
(2)ORACLE数据库 所需购买的软件:
序软件名称 号 Real 1 Application Clusters集群
上述软件的配置方法,见附件。
版本 CPU个数 方式 数据数据库名 数量 10g 4CPU 库集ORACLE 群 1
因篇幅问题不能全部显示,请点此查看更多更全内容