随着数字经济的深入发展,数据在发挥国家基础性战略资源中的作用日益凸显。作为一种新的生产要素,它贯穿于各行业的生产经营活动,成为推动国民经济高质量发展的新动力和新资源。充分发挥数据的价值,已经成为数字经济背景下的一种常态。银行业作为典型的数据驱动型行业,必须加快行业的数字化转型,从而推动数字化价值的实现,赋能业务发展,促进社会的全面数字化转型。在这一目标的指引下,如何管理数据,从而充分挖掘数据资产,实现其价值最大化,是数字经济背景下商业银行掌握数据核心资产的关键。加强数据治理,推进数据智能化,成为商业银行实现数字化转型的重要抓手。
在数据领域,金融同业长期普遍存在数据标准不统一、数据采集环节不完整、数据治理基础薄弱等问题。数据“不准、不通、不全”等行业典型痛点和难点突出,管理和使用难度大。为构建“统一数据、统一架构、统一生态”的集团数据治理体系,中国银行于2019年开始建设“三纵两纵一线”企业级数据平台项目。
中国银行软件中心(合肥) 副总经理 王继武王中国银行软件中心(合富)副总经理
中国银行进行布局,构建组织建设、平台能力、技术应用先进的企业级数据治理体系“三横两纵一条线”,是一个全球性、综合性、企业级、一体化的解决方案。中国银行实现了数据资产领域的顶层设计、系统架构、业务效益、技术实现,并驾齐驱。
对于中国银行“三横两纵一线”数据治理体系,“三横”是指构建“数据+分析+展现”三层架构体系,为数字资产的数据共享、分析挖掘和服务展现提供全面、敏捷、精细的能力支撑。“两纵”分别指全集团统一的数据字典,提供企业级数据字典管理服务;一套标准的质量全过程控制机制,控制着数据场从需求提出、设计开发到生产和数据分析应用的全生命周期。“一线”是指明确一条数据红线,全面落实数据问责,业务系统和管理系统并重,严肃数据纪律,塑造数据文化。
在“三横两纵一条线”数据治理体系的指导下,我行以“采集、存储、计算、使用、管理”概括了系统产品建设方向的整体架构,如图所示。产品可分为数据字典、数据协同、数据层、分析层、表示层五大模块,涵盖了数据流转的各个阶段,如采集、存储、计算、使用、管理等。
数据层的主要功能是采集、集成、重用和共享数据,包括数据湖和数据仓库;分析层主要是在AI能力的支持下,对数据层的数据进行探索、挖掘和利用,包括分析工作台和各个业务领域的应用;表示层提供统一的数据接口,将数据分析、使用、汇总和处理的结果提供给移动终端和网页终端;字典平台主要负责管理银行各类数据资产的规范和定义,以及数据质量标准、质量管理和安全管理。协同平台主要负责数据资产全生命周期的流程管理,日常数据使用、定义、变更、生成等环节由协同平台提供流转服务。
简而言之,数据平台是统一规范的数据标准平台,稳定高效的数据存储平台,灵活多态的数据挖掘平台,丰富友好的展示平台,流畅便捷的流程管理平台。
纵横破局,破解金融业数据领域难题
随着大数据技术和金融业务的快速发展,金融行业在数据资产领域面临的问题和困难不再是简单的技术栈的引入、系统数据质量的提升和一个数据分析集市的整改,而是全方位自主可控的企业级能力,以实施企业级数据战略,整合全集团的数据资产,推动AI与数据的结合。中国银行三横两纵一线数据治理项目产品的各个模块各有特点和侧重点,给出了一个全方位的金融行业数据资产建设流程。
1.贯彻集团数据战略,彻底解决数据管理中职责不清、标准不清、流程不通的问题。
(1)创建权责统一的数据文化。管理集团数据治理体系的首要任务是管理好责任,建立数据确认和责任认定制度,形成权责一致的企业数据文化。中国银行通过数据确认、安全呈现、协同应用、合规共享和可控容纳,建立了基于数据问责的数据管理机制。
数据问责实际上是一种数据“责”与“权”相结合的管理机制,其中最基础的问题是数据确认,解决了数据资产管理中职责不清、管理不严、推诿扯皮的问题。从而培养良好数据文化,促进工作方法和机制的良性循环。在此基础上,中国银行加强了系统建设,全行数据治理职责分工更加明确,协同工作机制日臻完善。
(2)建立“集团一字典”,实施集团数据标准。做好集团数据治理,就是做好数据管理。在这个过程中,我们建立了以企业级数据字典为核心的数据标准,实现了集团内部的同术语、同内涵、同数据项、同标准。
在项目建设过程中,数据字典的内容和工具建设是关系全局的关键。集团一本字典构建的数据标准红线,是指导中国银行建立数字资产目录、开展数据问责、需求管理和质量管理安全管理、落实管理规范、数据资产编目和数据标准执行的关键,从根本上杜绝数据资产混乱。在此过程中,我们对OLTP和OLAP全系统183万个数据项进行了全面统计、清理和规范,最终形成了16万个数据字典项,形成了一套基于模型的数据资产管理方法,规范了全行业务术语,明确了技术开发的数据标准。
(3)支持高效协作的数据协作平台。在数据需求、数据定义、数据生成、数据变更的过程中,我们发现各个环节都需要多角色开发人员和测试人员的参与。同时在这个过程中不断发现新的参与者和控制对象。为了将其纳入统一管控流程,解决行业内业务技术高效协同的困难,我们搭建了一个工具平台,支持流程的快速变化和在线化。
在管理好的过程中,为了实现数据资产全生命周期的安全可控,以数字资产协同和数据字典为载体,利用可视化流程建模工具,快速响应数据从需求提交到结果交付/数据从生产到消费全生命周期的管控需求,实现集团数据管理的资产化、标准化和流程化。
2.汇聚集团数据资产,消除数据孤岛,实现输出同源数据的实时可见性。
(1)计算准确无误,建立基于湖库的集团数据库。考虑到中行数据的复杂性,包括数据规模和复杂度,如何正确计算复杂多样的数据,如果单独使用Hadoop技术栈,很难满足复杂数据关联的快速运算,而单独使用MPP技术栈,很难满足数据规模的可控扩展,即单一技术栈很难同时兼顾数据规模和复杂计算的高效要求。经过探索和研究,我们创新性地构建了湖库mashup模型的数据库。
通过集中存储结构化和非结构化数据,将多个仓库的处理结果下沉到数据湖中,解决了湖和仓库技术栈不一致导致的数据分离问题,统一了数据。按照相同的标准和规范,对湖库数据进行分层处理,解决了标准不统一的问题。对外提供的所有服务都是通过以数据湖为核心的数据服务总线提供的,保证了数据服务的集中和统一。
(2)计算正确快速,建立基于湖库的群体数据库。湖库协同的方案虽然在中国银行批量数据处理领域取得了显著的成效,但是有效地解决了数据规模和处理效率的问题。然而,随着业务的不断发展,对实时数据服务的需求越来越大。为了满足这些需求,我们在湖库合作的基础上引入了流批一体化的计算机制。该机制整合了离线仓库和实时仓库的数据模型,在保证数据一致性的前提下,实现了“正确计算”和“快速计算”的业务需求。
具体来说,实时数据仓库将T+0客户的交易信息推送到数据湖的Kafka消息队列,供实时数据仓库消费。同时,实时数据仓库采用Flink技术,将T-1离线湖库计算的批量结果与Kafka队列中的实时数据相结合,使用流量和批量一致的数据模型进行处理,并将处理结果存储在数据湖中的Hbase和Redis中,供移动终端调用。最终实现实时业务数据的处理和展现,计算数据刷新频率达到5秒,处于行业领先水平。
3.以数据智能为驱动,重塑数据挖掘、数据共享、数据应用、数据消费的生态。
(1)AI由数字智能驱动,构建共享共建的数据应用机制。在数据平台生成数据后,我们引入人工智能技术,创新性地为全行各业务条线开发了“分析师工作台”。这个工作台具有以下特征。
首先,建立数据安全探索的平台,为用户设置不同安全级别的分析租户,为分析师提供所需安全探索数据的安全性,为分析师提供更安全可靠的工作环境。
其次,建立数据算法工厂和模型库。算法工厂包含加权计算、均值计算、方差计算等常用统计算子,以及自学习、卷积神经网络等超过168种通用算子。这些算法可以帮助分析人员更快地分析数据,提高分析效率。此外,在分析师工作台中,数据模型可以作为可共享的数据产品提供,方便其他用户探索和使用数据。
最后,支持可视化报表开发、多语言编程、数据挖掘等。在分析师工作台中,任何分析师都可以使用各种编程方法进行数据探索、数据挖掘和制作可视化报告。它可以让分析师更容易地分析和可视化数据,同时可以提高分析师的效率和质量。
(2)渠道丰富千人千面,打造一站式数据展示机制。数据治理水平最直接的体现就是展示渠道。通过调研,我们发现行业存在三大问题:展示内容不一致、展示渠道不一致、展示数据不一致。因此,我们统一了中国银行数字资产服务的交付渠道,构建了一站式数据展示能力。通过统一的数据门户和数据纵横APP,为全行用户提供各类数据产品和服务;通过对用户、功能、数据、权限等要素的精细化管理,实现“千人千面”的个性化服务。
(3)安全探索敏捷高效,构建了一致的多态数据操作机制。开发高质量的数据分析产品,最大的矛盾在于生产数据的多样化和生产数据的安全性之间的矛盾。数据分析师在设计数据产品的过程中,依靠大量多样的生产数据来保证模型的正确处理,但由于生产环境中数据安全的控制要求,他们无法获取原始的海量数据。为了解决这一问题,该行创新性地构建了一致多态数据运行机制,将大数据平台分为沙盒、开发、灰度、生产四种状态环境。技术架构、数据架构、安全架构和产品架构保持一致,但根据各状态的特点,侧重于数据探索、数据验证和数据消费,实现了数据服务的快速响应和数据产品的敏捷迭代。
4.全栈自主可控,搭建安全、稳定、敏捷、高效的基础技术平台。
(1)构建安全、自主、可控的企业级数据治理产品架构。中国银行企业数据平台基于大数据全栈创新架构,构建了“一云多核”企业数据平台,实现了整个数字资产管理运营领域的全栈自主可控。数据纵横平台从硬件、操作系统、中间件三个维度构建基于新创供应链的技术架构。该技术架构具有高可用性和易扩展的特点。结合虚拟化技术,构建底层资源统一管理、动态部署的IAAS和PAAS服务,外部服务无故障“断点”。基于自主开发的分布式服务框架,在许多地方和中心构建和部署云上的服务,以确保高可用性和不间断的应用服务。此外,行业首创大数据容灾系统,构建不间断大数据服务体系。
(2)构建自主研发、敏捷高效的大数据基础技术平台。数据纵横平台本身的产品建设以敏捷高效的大数据技术平台为支撑,构建覆盖数据采集、存储、计算、使用、管理全生命周期的能力体系,为大数据领域的开发、测试、运维提供一站式技术支持。中国银行大数据技术平台包括大数据开发框架、大数据调度引擎和公共技术组件三大模块。
大数据开发框架建设为全行数据分析应用建设提供统一的流程、工具平台和组件框架,全方位支持应用开发,降低开发难度;大数据作业调度引擎的构建,以自主可控的分层调度体系和顶层统一管理、跨平台的调度能力,实现了数据领域的统一调度。公共技术组件的构建将数据采集、加载、传输过程中的通用技术能力进行抽象和标准化,将标准的数据使用能力输出到各类大数据乃至非大数据应用中,实现标准化专用能力的高效复用和共享。在平台建设中也形成了丰富的大数据标准和规范体系,使大数据的产品建设更加标准化和系统化,灵活支撑全行大数据应用产品建设,推动全行数字化转型。
赋能定局,开创数据价值创造新局面
通过三年来的持续努力,中国银行“三横两纵一线”企业级数据平台构建了一套以大数据平台为基础,以人工智能技术为手段,以客户服务为目标,以风险防控为底线的数据智能体系,成功实现了企业级数据平台的高质量运行,精准赋能全行科技和业务条线,促进了各业务领域数据价值的快速实现。
1.从技术创新到商业价值创造
在企业级数据平台建设过程中,全面进行数据架构改造和IT流程优化,建成一套内容丰富、标准统一的数据服务平台。一年来,打破了数据壁垒,整合了50个“数据孤岛”,推出了43个新的数据应用,建立了2000多个商业模式,将数据分析和挖掘的时间成本降低了70%。同时,IT资源投入大幅减少,单位数据处理成本降低60%,应用研发周期缩短75%,研发成本降低13000人日。
在风险管理、智能营销、贸易金融、运营管理等领域取得显著成绩。比如在获客方面,通过深度数据挖掘,手机银行沉默客户推广率提升了近5倍。自主开发的外汇价格预测应用模型已服务于来自49个国家或地区的150家机构,在市场剧烈波动的情况下仍能保持良好的预测性能。
2.从生产效率到运营风险管理和控制
在建设企业级数据平台的同时,大力开展数据治理,实施全流程管控,数据资产质量全面提升,异常数据大幅减少,数据不准确、不完整的现象成为历史。
研究构建了共享共建的数据应用新机制和数据分析新模型,为全行23万员工带来了“看得见、用得上、见效快”的数据应用新体验,全面提升了业务处理的智能化水平,形成了重视数据、应用数据的文化。
加快数据分析师队伍建设,具备数据建模、分析、挖掘能力的数据分析师超过7000人,覆盖全集团、全业务、全层级,成为全行数字化转型的中坚力量。
企业级数据平台的建设也有效促进了业务和技术的深度融合,形成了企业级的思维和流程方法,实现了从战略到需求再到IT实施的有效承接,保证了数据管理应用能力的持续输出。
3.从群体价值到国家战略实践
项目建设积极响应国家和行业号召,围绕“数字经济、创新工程、创新驱动”的发展战略,积极推进建筑和技术的变革。一是响应“由东向西计算”计划,探索利用公共存储和计算资源实现跨域数据存储和管理的新机制和新方法,建设内蒙古大数据机房,促进当地绿色经济发展。二是全面落实国家自主可控要求,构建了以“国鑫·中魂”为支撑的大数据开发生产运营体系,为中行数字化转型奠定了基础,为行业大数据全面自主可控开创了可信赖、可复制、可持续的发展之路。三是海外分支机构和综合运营公司的数据将合规接入、隔离存储、安全使用,为集团战略发展注入数据,为国家数据安全建设提供案例和实践。
展望未来,中国银行将根据央行发布的金融科技发展规划和全球区域管理的要求,坚持数据元素的核心价值。将在央行的领导下,与同行和行业一起,共同推进数据平台的标准化、规范化和智能化,实现技术共享和共同治理。在商业银行的质量改革、效率改革、动力改革中,充分发挥数据资产的效用,为金融行业高质量发展贡献中行的智慧和力量!