基于异构系统智能云管理平台的研究
作者:邹理贤 董绍彤 于涛 来源:《硅谷》2014年第16期
摘 要 随着云计算技术的迅速发展,行内大型IT厂商纷纷推出自己的云产品,然而这些云产品大多基于各自的虚拟化技术,不同虚拟化平台间互不兼容,缺乏第三方的管理平台。本文拟研究一套基于异构系统的智能云管理平台,解决上述问题。首先分析了云计算平台的可生存性,继而从系统架构和异构计算平台两方面阐述了系统总体设计思想,接着分析了异构平台虚拟资源的应用方法,最后介绍了异构系统的资源监控模型。 关键词 云计算平台;异构系统;可生存性;虚拟资源
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2014)16-0027-03
随着互联网时代信息和数据的爆炸性增长,传统并行计算编程模型应用的局限性逐渐显现,云计算技术[1]就应运而生。云计算是基于互联网提供硬件、基础架构、平台、软件等各种服务的系统,是在分布式计算、并行处理和网格计算基础上发展起来的。自问世,云计算就得到广泛的重视和研究,IBM、微软、雅虎、亚马逊、Sun、EMC、Google等大型IT厂商纷纷涉足云计算,伴随着虚拟化技术的快速发展,出现了很多的云计算产品。
然而,当前国内外主流云计算产品的基础架构,主要是将硬件资源虚拟化,在操作系统层面对计算基础设施(CPU、内存、存储、操作系统等)实现统一管理。云管理平台将内存、I/O设备、存储以及计算能力等整合成一个虚拟的资源池为用户提供所需要的服务。从技术层面上来说,主流的云管理产品都是专注于各自的虚拟化技术,在技术上形成闭环,不同的虚拟化平台之间互不兼容,缺乏第三方管理平台,如VMware资源池、XEN资源池和Power资源池,硬件上X86平台与小型机平台等[2]。这就与云管理平台倡导的资源统一管理、自动化智能调度、动态弹性的虚拟资源获取、应用的快速部署能力背道而驰,虽然很多厂商进行了诸多有益的尝试,如System Center Virtual Machine Manager、vCenter Multi-Hypervisor Manager、HotLink SuperVISOR和openstack等。但距离实际应用仍有不小差距,这也是未来云计算基础架构发展的重要方向[3]。如何将异构的虚拟化平台构架在一个基于自动化智能调度、本地化弹性资源调配的基础平台上,也是未来基础架构云要解决的重大问题。本文也正是针对上述问题,考虑到对不同厂商软硬件更好的兼容,研究构建一套基于异构系统的第三方云管理平台。 1 云计算平台可生存性研究
可生存性[4]不是一个新出的概念,而且在军事和电信等诸多领域有较广的应用,但对其定义却还没有统一的标准。Neumann等[5]认为:在任意的不利条件下,计算机系统所具有的持续满足用户需求的能力;Ellison[6]定义为:由于系统的任何部分都有可能受到故障和恶意攻
龙源期刊网 http://www.qikan.com.cn
击的影响,可生存性是指当系统某部分不能工作时,其主要基本服务仍能持续使用或系统能够及时完成其关键任务的能力。目前大多采用CMU/SEI研究小组的定义,该研究小组针对可生存性分析提出了SSA(Survivable System Analysis)的研究方法,该方法给出了可生存性评估的整个流程,它可以在系统的生命周期、需求分析及体系结构几个层次展开,从而得到一个可生存性图。主要有四个步骤,详见图1所示。该分析方法最重要的部分当属3R分析,即Recognition(攻击检测能力)、Resistance(攻击抵抗能力)和Recovery(系统恢复能力)。 1)监控云计算平台的物理设备和各种服务,从而获取监控数据。
2)通过对监控数据的分析,提取异常的状况形成报警,分析异常状况产生的原因。 3)根据得到的异常原因制定异常应对策略,并生成应对故障的方法,通知相关人员。 4)根据报警和处理方法手动或自动处理相关的异常,完成后返回处理结果。 5)反馈处理结果,所有未能成功处理的警报都将重新提交至异常处理环节。 2 系统设计 1)系统架构。
目前,大部分的数据中心设备相当复杂,软件平台有Unix和WindowsKVM/Linux等、硬件设备有X86和小型机等。要实现统一的资源管理,单一的虚拟化技术难于实现。在云的基础架构上,目前尚没有一家云计算产品可同时实现对多种架构硬件设备和不同虚拟化技术(Power VM、VMware、Citrix XenServer、KVM)的支持,以及实现对资源的自动化动态调配,大大局限了用户的技术和设备选型。针对目前复杂应用环境的需要,本文在项目组已有基础架构研究的基础上,重点解决基础架构云的硬件设备虚拟化、软件版本标准化、系统管理自动化和服务流程一体化等问题,将IT设备提供的计算能力、通信能力、存储能力封装成资源池,实现基础架构云的标准化、自动化与流程的管理,形成异构计算资源统一管理的云管理平台,逻辑架构和整体功能框架设计如图3和图4所示。 3)基于时间的资源预约。
为了充分利用资源和节省资源,研究了基于时间节点的资源预约技术,实现用户在申请服务时,可以指定资源的使用时段。当部署完成后,用户只能在该预约的时段内使用资源;其他时段系统将自动锁定资源或者回收资源,用户不能使用。通过研究资源预约可以实现在指定的时段内使用相关的服务,如:在凌晨启用备份应用服务器、商品秒杀活动其间启用秒杀业务应用的服务器等。
4)智能化的应用负载模式。
龙源期刊网 http://www.qikan.com.cn
研究虚拟资源的负载均衡服务模式,解决进行服务器配置时不需要按照应用的高峰期来配置而只需要按平时配置的问题。解决在应用高峰期时系统按照策略自动地添加机器进行负载问题,还可临时使用第三方的云供应商的服务启动机器进行负载。节省了成本,提高了应用的横向伸缩性。当应用访问量低时,系统按照策略自动减少机器。甚至会关闭物理机器(如果该物理机器上已经没有应用在运行),充分发挥云计算的资源管理 优势。
4 异构计算资源监控模型研究
本文将研究立体多层次的云服务监控模型和方法,解决异构计算资源的统一监控问题建立一体化的监控体系,实现与云管理平台的对接以及与OA等接口,提供从物理设备到虚拟资源、应用程序等的端到端的全方位资源监控和告警服务,形成一种绑定HD-OA的具有OA服务监控的云管理产品,以实例证明云管理平台可以对具体应用进行良好监控,同时为用户提供功能更全面、性价比更高的一体化云产品。
监控模型以故障告警为核心,将来源于不同监控对象的监控告警指标进行整合,并通过告警过滤、压缩、关联处理后,主动为云管理员提供及时、准确的综合监控信息,最终实现“数据中心-机房-机架-机位-设备-虚机-应用”七个层次的可视化管理能力,机房监控如图9所示。 1)资源监控数据模型。为了实现多维度的资源监控,项目组将对各类资源的数据进行研究,制定监控的模型,定义了监控采集KPI指标,如CPU利用率,磁盘使用率等。对于虚拟机、对象存储、弹性块存储等资源分别通过虚拟机系统、对象存储系统、弹性块存储系统获取监控信息;对于公网IP、带宽、虚拟防火墙等资源分别通过各类设备的管理接口获取监控信息。要求资源监控频率可配置。通过对监控数据的分析,使用图形化的方式展现资源的负载状况。系统还支持查看资源的即时状态和查询历史状态。
2)监控告警的告警分析。如何实现监控是资源监控研究的重要内容之一。项目组将研究解决通过配置采集器的方式,来对不同的指标,按自定义的频率和采集范围进行数据采集监控。当通过定义事件触发规则,在采集到的数据时,根据规则触发事件。通过定义事件的告警规则,在事件触发时,产生相应告警。系统具有自动分析或手工分析功能,可以让管理机构快速处理告警信息。具体包含以下内容:支持配置事件是否需要压缩,有三种确定相同事件的方式:所有同名的事件认为是相同事件、事件数据源标识相同则认为是相同事件、事件数据源标识相同且事件触发原因相同的事件,三种确定相同事件的方式。支持可配置是否可以升级事件等级,有四种升级规则:对一段时间未确认的事件升级、对一段时间未清除的事件升级、对一段时间多次产生相同名称事件升级、对一段时间多次产生相同名称且触发源相同的事件升级。提供按级别、数据源、触发源来决定是否要转发事件,要转发给哪些系统的全局配置。并且在具体的事件定义中,可以重新配置这些转发内容,或关闭此事件的转发功能。
龙源期刊网 http://www.qikan.com.cn
5 结束语
当前云计算平台面临技术流派林立、互不兼容的基本现实,不仅对客户形成了技术捆绑,限制技术和设备的自由选择,而且抑制了云产业竞争,极大地影响了IT产业的发展,形成一套有效兼容各个技术流派的第三方云管理平台,已成当务之急,本文正是从这个角度出发研究并设计了一套基于异构系统的云管理平台,从而提高企业的资源利用率。 基金项目
2013年海淀区重大联合攻关项目:支持异构系统的智能调度云管理平台研究 参考文献
[1]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433.
[2]赖积保,王慧强,王健.系统可生存性研究综述[J].计算机科学,2007,34(3):237-240.
[3]张兴旺,李晨晖,秦晓珠,吕竹筠.基于异构云计算平台的负载均衡机制研究[J].情报理论与实践,2012,35(10):108-111.
[4]黄骁飞,白晓颖,苑丽杰.异构云平台性能监控与分析研究[J].计算机科学,2013,40(11):147-151.
[5]P.G.Neumann,A.Hollway,A.Barnes.Survivable computer communication systems the problem and working group recommendations[R].Washington US Army Research Laboratory 1993. [6]Fisher J,Linger R.Survivability:protecting your critical systems[J].IEEE Journal of Internet Computing,1999,3(6):55-63.
因篇幅问题不能全部显示,请点此查看更多更全内容