本文并不是深层次探讨那些新特性是如何工作的,而更多的是对于新特性,以及相应变化的一个综述。
首要的事情(回顾)
在SCOM 2007 SP1,R2这些之前的版本,是父子拓扑的,这意味着在管理组中,根管理服务器(RMS)作为一个或多个管理服务器 (MS) 或网关服务器 (Gateway)的父节点。RMS在管理组中有许多独特的职责(见下图)
RMS 提供了以下服务:
- 控制台访问
- 基于角色的访问控制
- 向代理分发配置
- 其他管理系统的连接器
- 报警通知
- 健康状况聚合
- 组成员计算
- 可用性
- 依赖监视
- 数据库数据删除和聚合
- 基于对象的管理模式
RMS也引出了以下问题
- 性能和规模瓶颈
- 单点故障(RMS)
- 依赖集群的高可用性
以上这些挑战对于大多数IT和执行团队很重要的一点就是,需要确保RMS高可用和灾难易恢复
目前有两种实现方式
1. 建立根管理服务器集群(如下图所示)
2. 将SCOM管理服务器 (MS) 提升为根管理服务器 (RMS)
不幸的是,以上这两种方式都会产生额外的复杂性并增加IT和执行团队的负担。Windows集群配置复杂,而且需要额外的共享存储。给RMS集群打补丁繁琐且容易导致管理组的不稳定。而提升SCOM管理服务器 (MS) 是手动的过程,需要人为运行某些的命令行工具来改变在报表服务器(Reporting Server), 网页控制台(Web Console),和其他管理服务器上的一些配置文件以及注册表。取决于客户的服务级别协议(SLA)对其商业运行的需要,客户一般会选择这两种实现方式的一种,或者两个,来确保管理组达到某种程序的可用性。
此外,根管理服务器(RMS)的单点故障会产生了一个瓶颈,限制了单个管理组能支持多少Windows 代理,Unix代理和控制台的规模。
在SCOM 2012产品规划阶段,去除单点故障的问题,能使客户得到更高的系统可用性,并且花更少的钱去维护SCOM系统。另外增加了其他SCOM 2012的新特性,如网络监控(Network Monitoring) 和应用程序监控(Application Monitoring)
主要变化(去除了RMS)
在一些深入的调查后,我们决定从SCOM的拓扑结构中去除RMS。这意味着我们需要一个方法去分散RMS承担的工作负载。这就产生了以下三点:
- Sdk服务(System Center Access Service) – 确保这一服务在所有管理服务器上运行,并且其他任何SDK的客户端都能连接到它。
- 配置服务(System Center Management Configuration Service) -(负责检测并分发新的配置管理组中的Health服务)联合每个SCOM服务器上的配置服务,让它们一起工作,保证整个工作组的配置是最新的
- Health 服务 (System Center Management Service)-
平衡管组中的所有管理服务器之间的工作负载,确保在故障时重新分配。
SDK 服务
在SCOM 2012中,这一服务在每个管理服务器安装时都会自动运行。支持任何SDK客户端连接到任意的管理服务器。在Beta版中,您需要在SDK服务中配置NLB来实现自动故障转移。
配置服务
为了联合配置服务,我们需要完全重写配置服务。您应该还记得在SCOM 2007版本的RMS始终需要大量的内存维持正常工作。其中一个主要原因就是配置服务。每次配置服务启动时,它会读取操作数据库,并将对象实例加载到内存中的XML中。在更大的管理组,这个文件会很容易地增长到超过6 GB。配置服务使用此文件,对操作数据库进行比较,检测变化并分发新的配置给客户端的Health服务。现在每个管理服务器都会运行配置服务,再也没有理由在内存中存储这一文件了。配置服务会将这一文件存储在中央数据库中(操作数据库),所有管理组中的配置服务会实时更新并用来检测配置变化。这一设计的一大优势是,启动配合服务更快速了。一旦数据库被最初创建,在随后的启动配置服务并不需要从头开始重新构建这个数据库,而只是维护它。因此,在重启后分发配置更快。这是对SCOM 2007版本中,对于一个大型管理组,会占用一个小时来启动向代理商分发配置这一问题的一个重大改进。
Health 服务(资源池)
为了将RMS的工作负载分发到所有管理服务器上,我们需要开发一种机制,使得管理服务器上的每个Health服务能独立的工作,同时,能意识到其他管理服务器上运行的工作负载。这一机制帮助我们确保没有重复的工作流或丢失工作流。为了做到这个,我们在SCOM 2012中加入了新的特性,叫做资源池。资源池是一个Health服务的集合,用于共同管理池中实例。针对实例的工作流被资源池中的Health服务加载和管理。如果资源池中的Health服务故障了,池中其他的Health服务会继续它的工作。我们也用资源池来提高其他产品特性的可行性,例如Networking和Unix monitoring。在接下来的博客中,我会深入的探讨资源池是如何工作以及显示的。
为了分散RMS特定的工作负载,我们默认创建三个资源池。
- All Management Servers Resource Pool - 我们重新将大多数RMS具体实例和工作流放入到这个池中。默认情况下,如果一个实例没有“should manage”关系组的话,配置服务(Configuration Service) 会将该实例指定到这个池中
- Notifications Resource Pool – 我们将告警订阅服务 (Alert Subscription Service)实例重定位到这个池中。我们不使用“All Management Servers Resource Pool”的原因让您可以从池中轻松删除不应该被通知的管理服务器。例如,您可能有三个管理服务器,但只有一个SMS调制解调器。您会从池中删除其它管理服务器,以便没有调制解调器的服务器的情况下不会运行“Notification”的工作流。
- AD Assignment Resource Pool – 同样的,我们将AD集成工作流 (workflow)放置于这个池中,因此您可以更容易控制AD指派工作流运行的地方。
注意到上面的截屏中,我们有一列叫做“成员(Membership)”,对于默认池,它设置为自动。这意味着所有管理组中的管理服务器自动成为这些池的成员。为了改变它,您需要打开PowerShell运行一个脚本(如下)
Get-SCOMResourcePool –Name “AD Assignment Resource Pool” | Set-SCOMResourcePool –EnableAutomaticMembership $FALSE
现在我可以右击“AD Assignment Resource Pool”的属性并修改管理服务器的成员。注:管理组新添加的管理服务器将不再自动成为这个资源池的成员。
到这个地方,您可能想知道那些运行在RMS上,非SCOM产品组提供的工作流(如微软不同团队或其它软件提供商管理包)会怎么样。为了使我们不打破向下兼容性,并支持之前老版本的管理包,我们决定保留Root Management Server实例,并在管理组中的管理服务器加了一个特殊的角色,叫做RMS 模拟器。RMS模拟器仅仅是为了传统管理包的向下兼容,绝不是为了使管理组正常工作而必需要的。
打开SCOM控制台,选择到管理->管理服务器,您就可以轻松分辨出哪一个是RMS模拟器,其中有一列就叫做“RMS 模拟器”。默认情况下安装在管理组的第一个管理服务器是RMS模拟器。当升级OM12时之前的RMS成为RMS模拟器。注:当使用UpgradeManagementGroup开关在一个非RMS管理服务器上进行升级时,RMS模拟器就是您运行升级的那台服务器。我们将深入到更详细的安装和升级的变化。
我们提供了PowerShell 命令行将RMS模拟器总一个转移到另一个上,以防担任RMS模拟器的管理服务器出故障了。
• 在PowerShell中识别当前 RMS 模拟器
get-SCOMRMSemulator
•移至另一个管理服务器
–首先将一个新的RMS模拟器管理指定为一个变量
$MS = get-scommanagementserver –Name <FQDN of Management Server>
Set-SCOMRMSEmulator $MS
•删除RMS模拟器
Remove-SCOMRMSEmulator
–输入 “Y” 同意
–运行get-SCOMRMSemulator 来验证是否删除. 您应该看到一个消息,说没有发现RMS模拟器角色.
•将RMS模拟器角色加入MG
–首先将一个新的RMS模拟器管理指定为一个变量
$MS = get-scommanagementserver –Name <FQDN of Management Server>
Set-SCOMRMSEmulator $MS
–运行“get-SCOMRMSEmulator” 来验证是否创建。
设计考虑因素
当您规划OM12管理组拓扑结构的变化时,有几件事情要记住。
- 由于引入了资源池的原因,建议所有的管理服务器延迟小于5ms。这意味着,如果您正在使用多个数据中心或站点的服务器,我们建议您将所有管理服务器移至一个数据中心,并在其他站点使用网关服务器。
- 产品建议,在任何时候,管理组中始终有两个管理服务器。通过这样做,您的管理组将一直具备高可用性,灾难备份也更简单。
我希望这篇文章提供了足够信息,让能着手设计SCOM2012拓扑。在本系列的下一篇文章将有关安装和升级的变化。
注:原文作者为微软产品经理Rob Kuehfus发布于
源文档 <-chinese-version.aspx
参考:
【原文作者Rob Kuehfus】