吕品:Hadoop技术在银行的应用与发展-云情报

本篇文章7402字，读完约19分钟

吕品:Hadoop技术在银行的应用与发展 2016年6月24日，由数据中心联盟金融信息技术委员会主办、中国国际数据中心协办的2016年金融信息化成果展示暨金融信息化技术委员会一周年报告在北京国际会议中心举行。中国国际数据中心圈7月1日报道，2016年6月24日，由联盟金融信息技术委员会主办、中国国际数据中心圈协办的“2016年金融信息化成果展”和金融信息化技术委员会一周年报告在北京国际会议中心举行。

吕品:Hadoop技术在银行的应用与发展

会议持续了一天，设立了主论坛和三个子论坛，包括特别会议、数据中心特别会议和特别会议。会议特别邀请国内各大银行和精英汇聚一堂，共同探讨“互联网+”时代中国金融信息化发展的现状和未来。其中，星环技术高级架构师和解决方案顾问吕品出席了大数据特别会议，并发表了题为“Hadoop技术在银行中的应用和发展”的演讲。

吕品:Hadoop技术在银行的应用与发展

吕品，高级建筑师和领衔技术解决方案顾问

以下是吕品演讲的真实记录:

吕品:让我们从数据仓库开始。大数据一方面是分析和应用，另一方面是底层的应用，Hadoop+boacker。现在，Hadoop的各种功能正在慢慢改进。像传统的数据仓库一样，Hadoop也在慢慢深化。让我们先来看看大数据的基础和挑战。我们说有四个V，具有大数据量、快速块生成、多样化的结构化和半结构化数据，以及大量数据，具有低的单值密度和非常大的总数。例如，银行可能存在四个问题:存储容量不足、计算容量不足、难以处理半结构化和非结构化数据、数据定位维度过多以及相关性分析能力相对较差。你把数据放在哪里，却不知道如何分析？这些是一些常见的问题。

吕品:Hadoop技术在银行的应用与发展

从客户的角度来看，我们有更多的金融客户，尤其是银行客户。从客户反映的情况到未来，整体处理的数据量会更大。将来，几个仓库通常会处理100T，并且具有10亿到100亿行的单个表将被连续实时加载。数据加载将是T+1、T+7定时加载，未来将连续或实时加载一个半小时。数据类型是多样化的。银行的大多数核心系统最初生成结构化数据，这将在未来产生更多价值。他们将使用互联网数据，因此许多数据是机器数据、图片、文本、Json、视频和音频数据。还有数据联盟。有许多银行系统，从几十个到几百个小系统到几百个到几千个大系统。有许多数据源，有些来自数据库，有些来自各个方面。

吕品:Hadoop技术在银行的应用与发展

使用场景在大多数场景中，一个是固定报表，它仍然占总业务量的70%以上。还有一种相对较新的方法叫做灵活查询。我行使用的许多报表都是基于以往的经验而固化的。如何生成新的报表实际上需要分析师不断探索。他们需要对数据进行各种各样的自由查询，因此查询形式往往不确定，而且会更加多变。另一种类型的应用主要是商业智能可视化交付。最后，从用户技能的角度来看，大数据不仅是底层数据，也是更多人的培养。我们被分成四类人，一类是数据科学家，他们更多的是建模和思考数据。一种数据工程师，越是计算机水平越好，要构建整个计算机工程平台。还有一类数据分析师更好地利用这些现成的数据，并使用数据科学家提出的模型来不断思考每一个场景，以实现真正的业务。最后，可能会有一些普通用户只是随便看看。系统的高可用性是非常必要的。

吕品:Hadoop技术在银行的应用与发展

我们总结了Hadoop在银行业的发展趋势。一个是应用场景的复杂性。数据集成能力是连续的，数据类型是多结构的，数据源更加统一和透明，数据采集更加灵活和自由，数据使用是实时的。Hadoop开发的操作和维护门槛越来越低，这是未来的趋势。这是我们银行使用相对完整头寸的结构图。事实上，无论如何，每个银行都属于这个银行的一个子集。数数位置怎么样？这是一个完整的集合，左边是各种数据源，上面是实时数据，中间是现有系统的业务数据，下面是一些主要来自互联网的外部数据。所有数据都通过ETL工具加载到我们的整个数据仓库平台中。数据仓库平台的存储区域位于右下方，结构化数据位于左侧，半结构化和非结构化数据位于右侧，逻辑上分开，实际上存储在一起。数据存储后，主要对外提供五种服务，分为五个平台:实时决策平台、离线处理平台、自助分析平台、数据探索平台和检索平台。这五个平台支持上述方面的各种应用。例如，实时推荐系统基于实时决策平台，例如实时风力控制和实时预警。审计服务也有更多的离线操作平台。还有一些常见的数据分析模型，如保证链分析和客户流失，它们是基于数据探索平台挖掘的。

吕品:Hadoop技术在银行的应用与发展

刚才我已经讲了很多关于它们是如何进化的。当您建立数据仓库时，您会发现60%和70%的经验都花在了ETL上。在传统的ETL中，左侧是业务系统，右侧是基于Oracle构建的传统数据仓库。数据通过中间数据加载器被清楚地处理、输入和加载。这更传统。大数据处理的ETL过程称为ELT。它不是ETL。首先提取，然后加载，最后转换。转换的最终过程放在大数据平台上。

吕品:Hadoop技术在银行的应用与发展

让我们和上面的数字比较一下。上图看起来是这样的，数据加载在中间，几个容器在右边，右边的两个块实际上合并并放置在Hadoop平台上。数据加载后的ETL可以在Hadoop平台中完成。数据进入和使用集群计算的能力远远强于单个加载器，加载器的功能硬件没有浪费，资源利用率更充分。数据加载刚刚从T+ 1开始。通常，我们在晚上进行离线处理。现在我们正在向T+0迈进。半小时内的延迟主要体现了数据整合能力。左下角的数据可以通过各种方式从扩展库传输到我们的平台。数据仓库还具有传统数据处理的必要能力。这是什么意思？传统的仓库使用很多功能，比如物品和隔离。Hadoop最初没有这些功能，因此不能在仓库中使用。现在不同了。基于Hadoop的许多增强功能已经完全解决了。现在，许多银行正在慢慢地用Hadoop取代原来的仓库，因为它成本更低。

吕品:Hadoop技术在银行的应用与发展

让我们来看看这是Hadoop领域最流行的方向，它被称为基于Hadoop的SQL。他们大多集中在互联网行业。传统的信息技术行业规模相对较小，成本相对较高，但有许多SQL和数据库开发人员。整个行业非常成熟，劳动力成本相对较低。我们所做的是如何让这群能够使用数据库的人使用Hadoop。面向Hadoop的SQL是一个相对流行的方向，降低了Hadoop的门槛。扩展是用编程语言编写的，sqlcon Hadoop只需要使用各种SQL标准。运营和维护成本不同。最初，通过串联各种程序很容易出现问题。现在，它可以通过工作流串联起来。迁移成本非常低，我们的大数据愿景非常好。一个项目通常在年初没有效果。做一个项目需要一两年时间。在一两年后，我们仍然有一个非常好的概念。两年后它可能会落后。我们的项目是考虑项目的快速完成。使用本地开发时间，一个项目需要一两年的时间来完成。使用基于Hadoop的SQL，迁移基本上是以一到两个月为单位进行的。迁移速度非常快。

吕品:Hadoop技术在银行的应用与发展

我们有基于各种事物的优化。这件事不详细。为什么会有基于成本的优化？或者降低门槛的作用。我们有三个表格，前两个是1亿行，后一个是1万行。我们的优化器代码是这样的。前面是一亿乘以一亿，后面是一亿乘以一万。像这样的事情可以由业务人员用粗略的代码编写。事实上，它们走得很快。这是一个自动化优化的趋势。

吕品:Hadoop技术在银行的应用与发展

我们有一个场景叫做事务处理能力是关键。Hadoop是为认知目的而设计的。它设计为一次写入和多次读取。它不支持修改。事实上，我们有一些场景。这种情况经常出现在拉链桌子上。例如，每个账户实际上每天在银行系统中都有一个状态。你每晚拥有的平衡将会有一个状态。我们称之为一条信息。事实上，它需要成为一个拉链，才能做各种生意。例如，账户a的状态为5月1日，状态为5月2日，所有这些都是4439元的余额。这样做时，需要将其更改为统一状态。账户a从5月1日到5月3日的状态为4439，从5月3日到未来没有变化，约8000元。状态信息最终变成分段信息。我们称之为“拉链”,这实际上涉及到从表的前面到后面的数据修改。最初，用开源Hadoop做不到的是，拉链表场景应该是大多数银行系统中最常见的操作。有了事物的功能，这些情景就可以得到满足。Hadoop可以让更多的银行业务参与进来。

吕品:Hadoop技术在银行的应用与发展

我们着眼于数据集市的能力。数据集市与业务人员有更多的联系。未来是灵活的，交货，询价等。OLAP是连接系统的能力。关系数据库场景有两种用途。一个是ROLAP。我们将数据分成事实表和维度表，并将它们放在数据库中。这是一个冗余度非常低的模型，在空之间几乎不需要什么。您需要单独进行查询来浏览某个表。查询效率非常低。还有MQLAP技术，我们使用它来预先计算结果，并将它们存储在数据库中。当你真正使用它时，搜索不是真正的计算。这个速度非常快。这是传统的两种方法。第三种方法的一部分是计算，一部分是保存，很可能就是这种情况。Hadoop在两个方面与上述相似。一种是预先计算方法。我们将数据存储在Hadoop平台上。通过一些任务命令，我们计算出所有应该在晚上脱机使用的结果，这些结果可能会在第二天得到。结果被直接计算并存储在介质中。白天检索很好。这需要很多时间，但是检索非常快。

吕品:Hadoop技术在银行的应用与发展

还有交互式OLAP技术。我所有的询问都将在你的询问命令发出的同时进行。这不是预先计算的，而是预先存储的，是一种相对干净的方法。我们将打开一个列缓存技术，数据将缓存在固态硬盘等。我们的10个节点只需要100亿条记录就可以在10分钟内计算出来。100亿是非常大的数据量。大多数银行将无法获得如此多的数据。一张100亿人的桌子就能做到。我们的10个节点就能做到。该客户在甲骨文使用的原始计算不敢这样做。一亿条记录需要20个小时，这就是区别

吕品:Hadoop技术在银行的应用与发展

让我们看看它的模型，会有一些变化，也就是说，我们刚才说它符合第三个通用，新的或雪花模型。我们将用户信息、商户信息和交易类型等交易拆分到不同的维度表中。在Hadoop中，我们做一个模型转换，并把它拉到一个大的表中，提前收集所有的问题，并提前提交，这将带来数据冗余。然而，有一个好处空时间的变化和计算非常快。

吕品:Hadoop技术在银行的应用与发展

基于主题模型，我的所有主题都被抽象和收集。看完这张表，我就能成为这种商业模式的专家。它可能有几十个领域。我不需要自己去寻找关系。这对商务人员来说是非常非常友好的事情。

以下是商业智能的发展。现在中国有很多商业智能供应商。我们有许多合作伙伴。他们的方向是什么？他们的逻辑也在改变。原来商业智能更多的是应用服务。我们在上面画一条线，在下面画一个数据库服务器，在上面画一个商业智能服务器。我们最初将数据存储在数据库中，做类似显示商业智能和报表的事情，将数据从数据库中提取到商业智能数据库中，然后再做一次。所有的处理都是在商业智能中完成的。数据库只是一个简单的数据库，数据存储不涉及计算。过程中的一个步骤非常慢，这里就是UCS。将数据库拉至另一个数据库的速度非常慢。在关系时代没有问题。在大数据时代，存在一个问题。大数据量非常大。将Hadoop绘制到商业智能并对其进行分析的过程非常缓慢。将数百万行数据绘制到商业智能需要十分钟。我点击按钮画一份报告。十分钟过去了。情况绝对不是这样。在大数据时代，我们将数据推至数据库级别，将计算推至Hadoop。只有计算结果被拉到商业智能中显示。商业智能是一些处于顶层的组织。顶部的一些虚线表的结构是一个虚拟映射。真正的数据在Hadoop这边。我处理每个表，触发SQL指令，并实际执行Hadoop层的向下压力。整个计算在最右边一个接一个地形成报告。然后，报告中的数百行和数千行数据被绘制出来。整个过程非常顺利，操作方便。无论国内外商业智能厂商在这一领域的发展，我们的Hadoop端已经与许多商业智能厂商合作，这就是我们所取得的成就。

吕品:Hadoop技术在银行的应用与发展

以下是数据联邦半结构化非结构化数据处理。我们可能都知道，只有DB2和甲骨文这样的数据库，以及互联网上使用的各种非关系数据库。这些是数据源，本质上不是数据库，而是存储介质。他们都有自己的一套应用编程接口。如果你想成为一个伟大的人，你必须了解每一套存储的应用编程接口。就我个人而言，我再也学不到两三套API了。你将来怎么用这个东西？这是为了降低门槛。我将所有这些东西分开，通过一个统一的接口连接抽象层。每个驱动程序统一以下数据。我所有的操作符都在HadoopSQL中运行。我的操作员不需要关心数据源是专家系统还是HBS。Hadoop制造商完成了从SQL到相关数据库的关系。操作员不需要负责以下的应用编程接口。我只需要思考和理解所有的事情都是可以做到的。专业人士可以做专业的事情。平台制造商专注于技术。银行等商业公司专注于自己的业务。

吕品:Hadoop技术在银行的应用与发展

关于一件事的全面搜查，搜查像原来每个人都觉得我查银行转账记录只能查一个月，为什么？因为该记录存储在非常昂贵的介质中，如果我将它存储几年，一家不能存储它的银行和另一家非常昂贵的银行都不愿意这样做。Hadoop的成本非常低。我们可以输入一个人在任何一年的所有记录。我们可以将热数据和冷数据分成一部分，将冷数据分成一部分，将热数据分成另一部分，这样开发人员就可以知道哪一部分是哪一部分，并且我们可以分割整个存储层。上面的检索平台提供了各种服务，但它也是打包的。最后，业务人员看到只有一个统一的数据接口服务，不需要关心我的数据在哪里。我只知道我可以使用这些数据，从而完全隔离了业务人员和开发人员。

吕品:Hadoop技术在银行的应用与发展

半结构化和非结构化处理，越来越多的文本、图片、视频和音频数据将在未来的Hadoop平台上使用。通过自然语言处理和视频特征提取，我们可以将视频和音频文件理解为结构化数据，并最终保存到结构化数据端。整个操作在大数据平台上非常快速地完成。

最后一部分是实时判断能力。这是什么意思？目前，数据变得越来越实时，我们的许多数据已经过时和无效，一个数据在生成时就可以生效。例如，如果机器被警告，我发现机器的负载不正确，可能有任何泄漏。一个小时后，我发现这台机器的早报没用了。我们抓住罪犯，然后用摄像机捕捉它。我们需要实时报告。如果有一天我们再次报告，我们不知道它在哪里。手镯或刷卡信息将被发送到我们的数据处理和各种数据的关联平台。例如，当我做机器分析时，这台机器的负载很高。我已经向运行维护人员的手机或运行维护人员的邮箱发送了警报。操作和维护人员可以采取关机等操作。这是一个实时处理方案。

吕品:Hadoop技术在银行的应用与发展

最后，我们有几个工业应用。让我简单介绍一下一个非常典型的自助式分析平台的应用。这一应用在银行得到了大力推广。未来，许多银行会发现，银行的大部分业务都相对陈旧，人们习惯于依靠自己的头脑来巩固业务。现在许多新的场景调动了人民群众想出新的东西来达到效果。这不是由专家和少数人完成的。我们这边实际上结合了银行的场景开发了这个东西。将来，银行会把东西存放在同一个总部。分行、支行业务人员将根据自己的权限，使用自己的账号连接到该平台。然后，他们可以根据自己的权限获取一些数据，并对他们感兴趣的数据进行各种分析。将来，他们将在分析数据后生成有价值的模型，并在生产线上相互交流。最后，有价值的模型被固定为一个新的模型，这可能是未来的模型。以广大人民群众的力量，一个人的大脑还不够大，而用整个大脑线来充分挖掘这件事。这个平台的价值在于民生。每个人都熟悉阿拉丁的系统。事实上，它已经做了这件事，也就是说，所有的数据都在北京总部。每个分行都会给他们几个账号。他们有权联系业务人员做生意。最后，他们依靠整个平台来交换和共享模型。像这样的东西就是民生的典范。

吕品:Hadoop技术在银行的应用与发展

这是另一个用户行为日志分析系统，在很多地方都很常见。这是给我们的银行客户的。它主要针对的数据是在线APP电子银行的数据。用户通过应用程序或网站登录，执行一系列操作，如充值、贷款和加油。后台生成一系列日志数据。这些日志数据非常有价值。我们收集这些数据进行分析。我们分析一下点击流程，会达到什么效果。我们可以点击升级应用的充值按钮。我们需要在4: 45登录门户，然后才能充电。我们发现70%和80%的人需要使用充电按钮。充电按钮的说明放在里面。我们把它拉出来，以改善客户体验。还有一个推荐系统。根据您以前的点击记录，您在东部订购了西点，并且在背景中有信息。你经常点了一样东西却没有买。我不知道是不是因为价格问题。背景人员分析了产品，出于价格原因，我们给了你一些折扣。如果质量不够好，我们应该用质量更好的东西来代替它吗？可以找到这样的建议。还有一个实时建议是，我们提出一个在上海陆家嘴东方明珠上花钱的案例。你在东方明珠上花钱，然后去观光塔。你们大多数人选择在另一个地方吃饭。当你刷卡时，我们会做一些记录。根据关联匹配规则，我们推荐隔壁的餐馆。如果你喜欢西餐，我们向你推荐一家西餐厅，如果你喜欢中餐，我们推荐一家中餐厅。

吕品:Hadoop技术在银行的应用与发展

对于开发、操作和维护，我们通常为机器设置一些警告值。我的机器的中央处理器达到80%，90%的负载不正常。太热了。我会发一条警告信息。这实际上毫无意义。在我们的系统中，基本上没有人在晚上使用指示器。负载非常低。我们的正常水平是白天80%，晚上20%。监控60%的警戒线对你来说毫无意义。所谓的警戒线本身应该是动态的。白天，如果你超过80%，我想你会报警；晚上，如果你超过20%，我想你会报警，所以警戒线是有意义的。这样，我们将通过日志系统分析建立一个动态模型。有十几个案例。

吕品:Hadoop技术在银行的应用与发展

我们还有一个智能文本分析系统。现在有很多爬虫，比如百度贴吧、论坛等等。爬下大量数据，在大数据平台上执行重复数据消除、格式化、预处理和标准化等操作。我们生成非常好的数据源，供以后的数据分析师分析、理解自然语言、深入学习、通过机器学习等等。，并将分析结果显示给上层进行数据显示。所有的模型都是建立在这个基础上的。我们在这个模型上做得很少，市场上有很多模型公司为某个场景或某个行业构建这样的模型。我们已经形成了一个企业知识地图。将来，可以通过文本挖掘来挖掘企业数据，以创建每个企业或企业的完整图片。在未来，无论是管理还是寻找新的价值，门槛都会更低。

吕品:Hadoop技术在银行的应用与发展