本篇文章7908字,读完约20分钟

冯雷:数据中心智能综合运维技术通信 2016年6月24日,由数据中心联盟金融信息技术委员会主办、中国国际数据中心协办的2016年金融信息化成果展示暨金融信息化技术委员会一周年报告在北京国际会议中心举行。 中国国际数据中心圈7月1日报道,2016年6月24日,由联盟金融信息技术委员会主办、中国国际数据中心圈协办的“2016年金融信息化成果展”和金融信息化技术委员会一周年报告在北京国际会议中心举行。

冯雷:数据中心智能集成运维技术的传播

会议持续了一天,设立了主论坛和三个子论坛,包括特别会议、数据中心特别会议和特别会议。会议特别邀请国内各大银行和精英汇聚一堂,共同探讨“互联网+”时代中国金融信息化发展的现状和未来。其中,北京钟毅安图科技有限公司产品总监雷锋出席了云计算专题会议,并发表了题为“数据中心智能集成运维技术交流”的精彩演讲。

冯雷:数据中心智能集成运维技术的传播

雷锋,北京钟毅安图科技有限公司产品总监

以下是冯雷演讲的文字记录:

冯雷:让我简单地说一下,第一阶段叫做离散阶段。我们主要受业务驱动,根据业务需求被动地构建信息技术。第二个阶段叫做数据集中。无论是五大银行还是国有股份制银行,每个人都经历了这个阶段。从所谓的省级集权到国家集权,甚至全球集权,他们都可能经历过这个阶段。从根本上讲,许多线路已经实现了多功能数据中心。这是对数据中心发展过程的简要回顾。当然,对于相应的三个阶段,操作和维护的要求是不同的。例如,在初级阶段,我们可能会遵循标准化;在数据集中阶段,我们更追求流程和自动化;在多生命甚至云环境中,我们追求智能。

冯雷:数据中心智能集成运维技术的传播

每个人都看过很多这样的照片。这是操作成熟度的模型。每个人都在圈子里。我不会详细解释这五个阶段。

这是我们整个操作和维护的框架系统。这个框架体系是我们工业和信息化部有一个ITSS。我们建立了国内信息技术运行维护体系,制定并发布了相对符合我国国情的数据中心运行标准。有人员、技术、流程、工具等。从理论体系上来说,我们指的是我们在做什么。

我们简要回顾了传统操作和维护过程中的一些问题。你们中的许多人也在操作和维护领域工作。我也是。今年我已经在操作和维护领域工作了将近20年。无论是在哪个公司,哪个角色,还是主要在运营维护领域,主要服务对象都主要是银行。我们简要回顾一下,会有一些突出的问题。例如,有许多重复的工作。我们的运行和维护有一个方向,从被动运行和维护到主动运行和维护。主动操作和维护有一个非常重要的着陆方法,即我们的健康检查,俗称巡逻检查。巡逻检查很简单,非常简单。无论是客户还是服务提供商,都会有一个标准的巡检模板。我想看看结果,并根据巡检日志分析是否有问题。因为这看似简单的事情,但它所代表的意义是非常重要的,因为我们可以在事故发生之前实现预防事故的目标。另一方面,如果说我们的巡视检查主要依靠人力的话,那也主要取决于责任心和专业能力。你可以让他在上半年或一年内做这件事。如果需要很长时间,他将不可避免地松懈下来。我们接触的一些客户,包括他自己的工程师,也有类似的问题,因此失去了巡视检查的意义和主动操作和维护的着陆方法。这是我举的一个例子。

冯雷:数据中心智能集成运维技术的传播

例如,我们需要每年、每周和每月在数据中心进行适当的更改或投入生产。例如,在一家大型国有企业平均每批投入生产之前,我们必须交付的基本环境数量约为200套。在我们交付200套环境之前,我们基本上需要派遣大约10名相对有经验的工程师。基本上,我必须花一周时间来交付基本环境。包括从操作系统到集群再到数据库,根据一些相关的配置规范完成相关的交付要求需要一周的时间,交付的结果仍然是不均衡的。这是我引用的两个相对典型的例子。

冯雷:数据中心智能集成运维技术的传播

这是从我们的角度整理出来的。我们对信息技术基础设施运行和维护发展阶段的理解也可供专家和领导参考。第一个阶段称为传统操作和维护阶段。这个阶段是以人为本的。每件事都是由人做的,或者如俗话所说,是由人做的,不管它是简单的、复杂的、常规的、突然的等等。第二个阶段叫做标准化。传统取决于人。我的整个操作和维护是否良好,质量是否有保证,主要取决于人们自身的标准化、责任感、专业技能等。第二个标准化阶段是在逐步积累的基础上,对运行维护中的一些相应事物进行梳理和提炼,形成一些规范和标准,包括两个层次的标准。第一个是各种操作和维护流程规范,第二个是相应的技术标准,例如我们最常见的安装和配置规范,您的各种基础设施是什么,以及如何匹配这些参数。第三阶段被称为过程阶段。在这个阶段,我们主要依靠我们所谓的ITIL。ITIL是一个管理系统,每个人在运行和维护领域都接触过。当然,ITSS现在已经逐步放开,我们将结合标准建立自己的整体运行维护规则体系。第四阶段称为自动操作和维护。这是什么概念?在标准化的前提下,我们手动执行刚才提到的重复性例程。自动化也分为几个阶段。最原始的初级阶段是写一个脚本。脚本本身就是收集信息,进行一些初步的分析和判断,并给出一个结果。进一步的自动化,我们称之为产品自动化,或者自动化产品,用高级语言封装了我们刚才提到的标准化动作,形成所见即所得的功能,而不关注特定的命令或登录特定的操作系统。相对来说,对我们运行维护人员的能力,尤其是技术能力的要求将会降低。就像我们银行过去每天晚上都要分批阅读案例一样,我们需要使用非常熟悉业务和技术的运维人员来分批阅读案例,然后我们可以使用相关人员来分批阅读案例。此外,我们称之为智能。自动化解放了我们的手脚。我们现在不需要做以前需要手工做的事情了。通过这个系统,我们可以帮助您通过这个平台自动完成。例如,我刚才提到的巡视检查和安装配置将在后面提到。智能化是逐渐释放我们部分脑力的工作。事实上,在我们的操作和维护中有一个术语叫做基于场景的操作和维护。在我们参与的众多场景中,有些场景可以被标准化,包括其处理过程,也可以被标准化。对于这样的场景,我们可以从场景,或者从问题识别、分析、处理到关机,实现称为B-ring的过程。

冯雷:数据中心智能集成运维技术的传播

这是一个基于我们多年运行和维护经验的综合运行和维护管理平台。事实上,在操作和维护方面,主有几个维度。首先,监控是操作和维护人员发现问题的基本手段。我们现在面临的问题可能包括网络监控、机房环境监控、存储监控、各种数据库、操作系统和其他方面的监控,甚至是应用程序的监控。各种系统之间可能没有关联,数据也不会在它们之间流通。从我们接触的一些客户的角度来看,对监控的迫切需求是什么?不是没有监控,而是我们想建立一个平台,叫做综合监控。我希望将我的整个基础架构领域以及操作和维护中涉及的所有内容集成到一个集中式管理平台中。这是监控。第二个维度是我们的过程,ITIL和ITSSM。我认为在座的大多数客户和银行彼此相似,无论是流程分类还是产品平台的登陆。第三是自动化,它取代了我们每天通过自动化手段重复的一些一线操作和维护工作。此外,我们还有资源管理。正如刚才青云同志所说,在Iaas层面,技术越来越成熟。对于数据中心的运行和维护,所谓的动作将整合在底层,进一步实现监控一体化。

冯雷:数据中心智能集成运维技术的传播

这是我们平台的特点。包括我们所说的标准化、过程、自动化、监督和控制集成,其中包含我们的最佳实践。

这就是我们所说的所谓监管一体化。从逻辑上讲,我们是如何着陆的可以通过这张照片来展示。例如,在监控平台的底部,我们将通过监控发现各种报警,并报告报警。部分相关管理员或值班人员将通过短信、微信和电子邮件进行推送。对于我们的报警事件,我们通常分为两种类型。一个是它需要智能运输系统的集中过程控制。我必须发起,改变,通过CMDB审查,然后改变。另一种类型叫做常规变化。这种改变不需要CMDB。对于这种变化,我们可以将其分为两种方法来处理着陆变化。第一个是手动的。这种问题更复杂。必须由高级系统和存储的专家进行咨询。另一个是更紧急的事件。这些不需要太复杂。它的加工过程也非常标准化。在这种情况下,我们可以将它打包到我们的自动管理平台中。我们通过流程管理平台与自动化平台接口,该平台可以自动调用我们相应的自动化处理模块来进一步实现,从故障的发生到流程的控制,到这个问题的处理,再到关闭进一步的报警事件来实现闭环处理,所有的流程都将与CMDB相关联。

冯雷:数据中心智能集成运维技术的传播

这是我刚才提到的监控一体化运维的具体应用场景。事实上,我们主要总结了三种类型的场景,一种叫做故障处理场景,一种叫做系统扩展场景,一种叫做应用发布场景。我们可以先看看第一个故障处理场景。让我举一个简单的例子。我们都使用一些(英语)。例如,银行经常使用(英语)和(英语)。它最大的特点之一是消耗大量资源,尤其是内存。人们经常死于我们所说的(英语)和(英语)。当这个问题出现时,我们的操作员应该做什么?对我们来说,最常见的方法是我重启它,因为我想在第一时间和尽可能短的时间内恢复我的业务,而不是找出问题所在。这是我们给你的例子。然而,从它的故障现象到它的处理过程,它是相对简单和非常标准化的过程。事实上,对于这样的场景,我们可以通过平台将它从故障的识别到故障本身的处理全部打包,从而实现从报警到整个处理的闭环处理。当然,我只是举个例子。仍然有许多相同的类型。我不知道你最近有没有看到一个微信,是工行数据中心的一位副总裁发来的。他表示,工行数据中心一线运维自动化覆盖率已经达到90%,包括我们自己在四大银行的实践经验。目前,我们的工作自动化覆盖率在整个大型国有银行的数据中心的运营和维护中肯定不到90%,但却接近50%。也就是说,我们有很多可以解决的失败场景,但这些场景并不代表所有。一旦整理出来,我们的效率将大大提高,人为干扰链接将减少。自我治疗并不意味着我已经悄悄地解决了这件事。系统中也会有痕迹。我们的操作和维护人员所做的是分析问题并找出问题的原因。我怎样才能彻底解决这个问题,避免类似的问题再次发生?这是我们必须做的,而不是整天重复来重新开始或扩展我。

冯雷:数据中心智能集成运维技术的传播

常见的扩展是扩展文件系统,甚至是CPU和内存,因为我们的整个基础设施,通过IAAS级技术,可以实现在线资源调整,这对于我们的小型机来说也是一样的。这种调整需要有人发布指令、时间表和着陆方法。X86技术非常成熟,但对于小型计算机来说,如惠普等。,这种问题也会面临。正如刘楚刚才所说,建行也实施了类似的功能。这就是我们所说的系统扩展场景。

冯雷:数据中心智能集成运维技术的传播

第三是应用程序发布。这个应用程序已经发布,现在每个人都停止了很多。这只是为了和你分享我们自己的经历。我们也在做一些大型国有银行或股份制银行。例如,我们正在发布某家银行的网上银行业务。众所周知,网上银行的业务变化越来越快,需要发布的新版本和新功能的频率也越来越快,基本上是每月一次。以前,我们必须投票给六七个工程师,从晚上10点开始,到第二天早上5点或6点结束,但是在自动发布我们的应用程序之后,我们的时间可以减少到50%。这是怎么发生的?我以后再谈。我们有一种叫做过程引擎的技术,它连接了我们发布中涉及的所有链接。众所周知,应用程序发布是一件非常复杂的事情。它需要在不同的IP和不同的角色中执行不同的操作。此外,执行的动作有严格的顺序逻辑关系,有串行、并行和分支。此外,前者的输出可能是后者的输入。我们以前需要手工完成这些任务,而且工作的质量在晚上的后半部分很难控制。然而,我们将在深夜困倦。不可避免会有一些问题。通过这三个场景,我想向你们展示监督和控制的结合是如何形成的。

冯雷:数据中心智能集成运维技术的传播

第二个只是向专家和领导者介绍我们的整个平台。这是我们的整个主页视图。这是监督和控制的结合。上层是我们的显示层。收集层包括我们刚才谈到的整个基础设施,甚至包括计算机房的风、火、水和电。我们的平台不仅是我们自己收集的所有监测数据,而且我们还可以支持第三方,包括风、火、水和电,包括应用,包括其他专业监测。我们都可以集成到统一的事件管理平台中,并通过统一的规则进行显示和管理。这是我们监控的结构,这是我们监控的部分。接下来是我们的CMBD。在座的许多银行也做过CMBD。我相信每个人在CMBD都会有一些难忘的经历,包括自2008年以来我们做过的许多案例。但老实说,在中国,尤其是在银行,很少有CMBD真的被很好地利用,或者说很少。当然,每条线都有自己的特点。今天,这不是我们的特别话题。我将谈谈我们自己的一些经历。

冯雷:数据中心智能集成运维技术的传播

因为CMBD本身是一个非常美丽的东西,它看起来非常高,每个人对它的期望和定位也非常高。然而,正是由于这些原因,每个人一开始都把目标定得太高,所以不可能实现。有几个原因:主要原因是信息没有得到维护。有两种维护方法。第一是技术手段,第二是我们的管理手段,这是我们的手工模式。从操作和维护的过程来看,我们很难实现100%的维护和更新。其中一些需要手动维护。在这种情况下,即使我们过于小心地设置配置项,数据维护或信息维护的成本也非常高。关键绩效指标和其他手段经常被采用,但相关的效果往往没有达到。首先,我们需要弄清楚我们的整个CMBD消费情景是什么,也就是说,你们的CMBD消费情景是什么,谁将在CMBD使用这些信息,反过来,我们需要在CMBD维护哪些信息,以及谁消费和谁维护这些信息。同时,在开始时,不要把粒度设计得太细,因为这是不现实的。

冯雷:数据中心智能集成运维技术的传播

这是ITSM。这是云平台。当然,我们的云平台不同于青云的定位。我们的云平台主要是一台支持X86的小型计算机。我们不使用虚拟化技术。我们调用API将所有虚拟化的东西集成到一个平台上,形成一个统一的管理平台,并为用户提供服务目录。这是我们的云平台,所以我就不多说了。

以下是自动化的功能。我将向你简要介绍它。底部是我们所说的批处理管理、自动安装、配置、应用程序发布、系统服务、操作和维护工具等。例如,系统服务实际上封装了操作和维护中常用的操作和维护工作,形成了一些可见的模块,因此不需要再次登录系统,不需要输入命令,只需在我们的平台上点击鼠标。我将简单地对这一部分进行批处理管理。它的主要职责是将我们未来需要的所有维护统一到这个平台上,并进一步扩展到我们所说的批处理管理。批量管理是为客户提供一个入口。除了一些打包的功能,每个客户还必须做一些个性化的操作和维护工作。通过批量管理,我们提供了一个入口。换句话说,您可以通过这个批处理管理平台将批处理工作放入脚本中。在您的整个操作和维护环境中执行批处理操作,前提是您拥有该脚本的执行权限和这些信息技术系统的执行权限,从而大大提高我们的效率。例如,我们做了一些安全增强,分批更改密码,分批收集信息,等等。这是作业管理,各种计划作业和知识作业分批执行。您可以通过这样的模块入口看到状态及其执行结果。

冯雷:数据中心智能集成运维技术的传播

这是我们拥有的权力,所以我不会详细讨论。另一个是阿格涅特。像公共云和私有云一样,一些客户已经将开发测试迁移到公共云。对于运维人员来说,无论我们的主机部署在我们自己的机房环境中,我自己的私有云环境还是公共云环境都是我们运维的对象。作为公共云服务供应商或服务提供商,他们只提供最低级别的支持,以确保您的操作系统不会挂起,并且可以提供基本的监控数据、CPU、内存、错误报告等。,但内部细节由我们的运营和维护人员处理,因此我们可以通过这项技术实现对公共云的控制。

冯雷:数据中心智能集成运维技术的传播

这就是我们所说的安装配置。我们主要从事主流商业软件的自动安装和配置。这种安装和配置可以实现批量生产。我可以选择10、20和它们同时批量生产进行安装和配置,主要是一些商业软件。这里有很多练习。如果您有相关的配置规范,您可以通过这个接口保存您的配置规范,然后为直接应用提供相同类型的环境。这确保了无论谁在未来交付环境,我交付的质量都是一致和有保证的。

冯雷:数据中心智能集成运维技术的传播

例如,系统服务,正如我刚才所说的,我们封装了一些我们常见的工作或操作,比如最常见的,我们将收集一个(用英语),然后这个(用英语)很简单地说,我们可能必须匹配一个脚本,自动传递下去,等等。,甚至(用英语)本身,我们都要初始化,用(用英语)做一个定义,掌握数据需要多长时间,现在这个事情不需要你手工做,只需要点击鼠标来检查你需要操作的IP。包括掌握(英语)、批量更改用户密码等。,我不会给出时间关系的详细例子。

冯雷:数据中心智能集成运维技术的传播

稍后看应用程序发布,这是关于应用程序发布的整个过程和已经做了什么。在座的主要是我们银行的操作和维护人员,所以我不会说太多。我想强调的是,应用程序发布只是我们在操作和维护方面的通用术语。我们的许多操作和维护工作可以通过过程引擎联系在一起。应用发布是一个相对典型的应用场景。除了应用程序发布,我们还会做其他事情。我们的业务系统有许多关系。我们的业务系统中有不同的功能系统,例如交易系统。这种优先顺序是严格定义的。我们对谁必须先关闭以及谁必须稍后关闭有严格的要求。我们以前需要手工做这些事情。我们必须自己采取这些行动。从每个环节和每个节点的操作来看,它可以非常标准化。在此基础上,我们可以使用我们称之为过程引擎的东西来把所有的东西串在一起。

冯雷:数据中心智能集成运维技术的传播

下面是我们平台的界面显示。我们正在定义整个节点和步骤。我们的每个小模块都被称为节点,它定义了事物之间所有相关的逻辑关系。有分支、输出和输入。当然,在整个执行过程中,在您定义它们之后,我们实现了一键发布。在发布过程中,我们可以实现整个执行过程和视觉跟踪,就像刚才的图一样。你采取的步骤将会非常清楚,中间会有各种各样的问题。根据我们定义的状态,它将及时显示。这一步是报告错误和其他问题。单击查看错误信息。我们支持人类干预。例如,在我们实施了某个步骤之后,我必须通过手动确认,通过流程批准过程,或者插入网络电缆,打开裂缝等。所有这些都需要人工干预。干预后,我们可以从当前的两个节点进行跳转操作,非常灵活。至于负责任的操作和维护场景,一旦定义好,就非常方便了。一开始就把它整理出来确实需要时间和精力,因为这是一项相对细致的工作。我们把它整理出来形成一个发布账户,比如输出交付。

冯雷:数据中心智能集成运维技术的传播

最后,看看操作和维护工具,它们实际上是我们最佳实践的规划和打包。在这里,我们提供自动化检查工具,包括容量评估。我刚才也举了一个例子。通过我们的平台,我们可以实现从信息收集到自动生成报表。我可以用一个非常直观和直观的界面打印出我们整个系统的健康状态,同时生成PDF和其他报告。同时,我们的报告还可以自动向经理发送电子邮件。同时,我们也支持这样的多系统报告汇总,例如,数据中心数据库和操作系统可能不是20套,而是数百套。我们可以生成一份总结报告,这样经理们就可以一目了然地知道哪些系统有问题,哪些系统没有问题。这是我们的oracle故障分析和诊断工具。我们已经构建了大约30种操作和维护场景。其中一些场景可以标准化。我们可以在标准化的基础上包装它。现在我们可以统一包装这个过程。你只需要点击鼠标就可以很快列出这种关系。时间是时间的问题。我不会详述细节。

冯雷:数据中心智能集成运维技术的传播

这是我们场景的一个例子。花两分钟时间简单介绍一下我们公司。我们公司成立于2005年。到目前为止,公司拥有330多名员工,其中包括260名工程师。主要重点是整个信息技术基础设施的运行和维护服务。这是我们获得的资格证书。这是我们的合作伙伴,包括我们的主要业务,包括运维服务、绿色设备、数据库服务、虚拟化,包括智能运维管理平台。运营和维护服务是我们所说的整个基础设施领域的服务。这是我们的主要客户群,我们可以看到他们仍然是主要的客户群。这就是我今天向主要专家报告的内容。谢谢大家。

冯雷:数据中心智能集成运维技术的传播

2020-02-29 21:22:12 国际信息公司谷歌今年将在其美国办公室和数据中心投资100亿美元。 谷歌宣布了2020年的扩张计划,计划在11个州投资100多亿美元建设办公室和数据中心,包括加州、科罗拉多州和乔治亚州。

标题:冯雷:数据中心智能集成运维技术的传播

地址:http://www.yunqingbao.cn/yqbxw/2754.html