本篇文章2678字,读完约7分钟

中小银行如何构建自主可控的运营维护自动化系统? 赣州银行系统数据库组组长叶出席会议,分享了“中小银行建设自控运维自动化系统”的精彩内容。 2018年3月21日至22日,由中国信息通信研究院主办的“奥斯卡”在国家会议中心举行。作为其中一个子论坛,开源运维论坛于3月21日下午举行。作为当前的热点市场,开源技术与运维的结合会产生什么样的火花?开源操作论坛上见!

中小银行如何构建自主可控的运营维护自动化系统?

(叶,赣州银行系统数据库组组长)

赣州银行系统数据库组组长叶出席会议,分享了“中小银行建设自控运维自动化系统”的精彩内容。

叶介绍,赣州银行是一家位于江西省赣州市的城市商业银行,2017年排名第56位。

他说,传统企业建设运营和维护自动化最常见的两种方式是采购和自建。相比之下,中小银行面临三大困难:资金投入有限、技术人员有限和位于三线城市。在这种背景下,开发基于开源软件的产品来实现自我控制已经成为中小银行的主要解决方案。

叶指出,赣州银行的运维自动化建设主要分为以下三个阶段:一是自动化监控。该阶段主要实现对应用系统的全方位自动监控。第二是操作和维护的自动化。这一阶段的主要任务是将繁琐的手动操作安排到作业中,以便通过工具自动执行。第三,运行和维护发展。现阶段,主要是通过运行维护开发更多的自动化工具,如故障自愈和自动故障处理,来真正实现运行维护自动化。

中小银行如何构建自主可控的运营维护自动化系统?

从这方面出发,他详细介绍了运行维护自动化的建设:

开源监控平台包括zabbix、nagios、openflacon等。更重要的是根据企业的实际情况搭建一个适合自己的监控平台。叶表示,赣州银行在搭建监控平台时主要关注以下几个方面:

一个是快速实现定制监控的能力,这也是最重要的一点。一方面,在应用运行和维护中,会面临各种个性化的监控需求,而对CPU和内存的基本监控远远不够。与此同时,这些监控要求将随着业务的发展而不断提高。另一方面,即使是最基本的监控有时也需要个性化的调整,这就要求我们的监控平台能够快速实现这些个性化的监控要求。

中小银行如何构建自主可控的运营维护自动化系统?

二是分析监测数据。叶表示,该监控平台将产生大量的监控数据。分析这些运行维护数据可以了解应用系统的整体运行趋势,从而尽早发现应用系统的一些隐患,避免故障的传播。

第三,报警器可以灵活配置。不同的监控导致不同的报警需求,这决定了监控平台需要灵活配置和支持各种报警。

第四,界面简单易懂。叶指出,因为赣州银行的机房操作员不是专业技术员。简单的界面可以方便值班人员查看整个操作状态。

在自动化操作和维护方面,表示,他们的团队主要负责系统和数据库的操作和维护。就这些系统和数据库基础设施的操作和维护而言,自动化操作和维护很早就通过脚本和ansible实现了。数据库的一键安装、一键批量检查、系统的一键补丁安装、数据库的自动扩展等。

然而,在应用操作和维护之前,主要是通过登录服务器手动完成的,并且高度依赖于应用维护人员。当应用失败时,会导致恢复时间长,手动操作效率低,容易误操作。此外,当面临一些重大变化或备灾演习时,中小银行的ECC监控中心难以满足需求。在此背景下,赣州银行开始应用运维自动化。

在此基础上,赣州银行开展了三个方面的工作。首先,它是脚本化和标准化的,要求所有的应用操作和维护都有一个统一的基本操作命令,从而解决了应用操作和维护依赖性强的问题。第二是批量调度。使用Ansible实现多个系统的批量操作;

第三,网络自动化。叶介绍,蓝鲸操作平台根据应用系统控制权限,操作简便,支持多种语言,可以快速定制操作,还可以分发文件和调度操作,还可以记录每次执行的细节,从而实现可追溯的操作审计。蓝鲸平台的应用有助于提高应用运行和维护的效率。

他表示,通过蓝鲸运营平台管理预定任务更有效率,检查实施细节也更方便。赣州银行利用监控平台对蓝鲸的基本流程状况进行监控,同时也对蓝鲸运营平台的正常运营实施监控。叶分享了如何通过作业查询数据库在蓝鲸作业平台上监控预定作业的执行情况。他说,通过在数据库中查询计划任务的执行情况,可以很方便地知道一天中有多少计划任务,有多少已经成功执行,有多少已经失败。如果有计时任务未能执行,将通过自动监控平台立即发出警报!

中小银行如何构建自主可控的运营维护自动化系统?

蓝鲸操作平台推广后,为了实现自动故障处理,团队研究了蓝鲸的ESB文档,开发了一个故障自愈小程序,实现了监控平台和操作平台的联动。当自动监控平台监控到应用程序故障时,故障自愈程序自动判断是应用程序故障,而不是网络故障或对自身故障的监控。故障确认后,自动调用预先配置的故障处理作业进行自动处理,实现快速恢复。

中小银行如何构建自主可控的运营维护自动化系统?

故障自愈不仅可以实现最常用应用的自动重启,还可以帮助应用实现加密器的高可用性,这完全由应用的运行和维护来定义。

2014年,赣州银行的服务器完全虚拟化,大量虚拟机用于生产和开发。叶说,他们很快开发了基于蓝鲸开发框架的saas应用。基于蓝鲸Django开发框架,使用vmware正式推出的python sdk,我们开发了一个saas应用:云管理平台,实现了基础设施运营和维护的自动化。

同时,它改变了大量虚拟机在日常运行和维护中的安装和部署过程。通过云管理平台申请后,完成直接审批,然后进行一键式安装,然后自动交付开发,实现基础资源的快速交付。

据了解,赣州银行目前有两个相距5公里的数据中心。通过密集波分复用技术,在同一个城市建立了双功能数据中心的光传输网络,为跨中心数据传输提供了高带宽、低延迟和高可靠性的通道。存储层通过Vplex实现了两用存储。两个中心各有10多台X86服务器组成一个vmware集群。我们的数据库和应用程序虚拟机在集群中运行。这些虚拟机可以在两个数据中心在线切换。然而,如何合理分配同一个应用系统的虚拟机一直是我们面临的难题。

中小银行如何构建自主可控的运营维护自动化系统?

蓝鲸平台的另一个重要功能是实现虚拟机的自动合理分配。叶解释说,通过他们开发的云管理平台,每个应用系统的虚拟机根据每个物理主机的资源使用情况进行合理分配,保证每个应用系统的虚拟机不在同一个物理主机上运行,实现了三种模式的一键切换:(1)主中心模式:所有虚拟机在主中心物理服务器上的一键合理分配;(2)城市模式:一个关键是将所有虚拟机合理分布在城市中心的物理服务器上;(3)双活模式:一把钥匙将所有虚拟机合理分布在两个数据中心。

中小银行如何构建自主可控的运营维护自动化系统?

这样,通过云管理平台实现了虚拟机在vmware平台上的合理分布和自动化管理。基于蓝鲸统一开发平台的saas应用,从接触蓝鲸到完成云管理平台的开发和推出,只用了3个人10个月的时间完成,实现了运维自动化系统快速低成本建设的目标。

关联阅读

[中国国际数据中心圈原创未经许可禁止复制]

标题:中小银行如何构建自主可控的运营维护自动化系统?

地址:http://www.yunqingbao.cn/yqbxx/373.html