您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

当金融遇到大数据 会擦出什么样的火花?

发表于:2018-09-26 作者:梁生吉 来源:新金融观察报

随着海量数据存储和处理技术的发展,数据的价值将进一步凸显,银行自身要用好数据,基于客户账户数据进行客户画像,预测客户潜在需求,推出有竞争力的产品,根据客户消费数据,结合场景进行智能推荐,并进行风险预测和干预,提升盈利水平,作为金融数据服务提供方,要能在合规的前提下提供高质量的数据服务,打造场景化的金融生态体系。

当金融遇到大数据 会擦出什么样的火花?

云时代背景下,大数据(Big Data)吸引了越来越多的关注,数据中蕴藏着丰富的价值,通过提升数据管理和处理能力,应对数据急速增长的挑战,更多、更好地挖掘数据的内在关系并加以应用,成了金融业发展共同的目标。

随着业务发展和公司治理要求的不断提高,各类应用系统产生的数据量急速增加。据初步统计,目前行内各应用系统每年产生的非结构化数据已经超过1PB,结构化数据也以百TB计,加之已归档的历史数据,总数据量已经需要以PB为单位计算。

大数据的特点可归纳为“4V”。数据体量大,数据类型繁多,价值密度低,处理速度快。当前的软硬件环境,在爆炸式增长的业务和管理数据面前,凸显出了若干问题,包括数据存储成本高、横向扩展能力欠缺、大规模数据分析性能较差、历史数据难以有效利用等。数据的急剧增长和类型复杂迫切需要快速且有效的处理技术,而以Spark、HBase、Kafka等为代表的Hadoop生态系统则是大数据处理领域的利器。

当金融业遇到大数据技术,能带来什么点石成金的效果,可从几个典型的应用场景中见到。

  • 一是海量金融数据的存储与管理,交易渠道的多样化带来明细类结构化数据的快速增长,“双录”等监管类要求使影像、图片、电子凭证等非结构化数据也呈井喷之势,传统的数据库、内容库等技术因扩展性不高而应对乏力。Hadoop的分布式架构特点为应用提供海量数据管理方面的核心能力,包括结构化数据或半结构化数据的存储、查询等,在一定程度上替代传统关系型数据库的功能;非结构化数据的存储和管理,在一定程度上替代传统文件系统的功能;结构化数据、半结构化数据或非结构化数据的统计、分析、挖掘能力,可基于此构建数据仓库或数据集市,形成互联网银行业务拓展的数据支撑,完成多格式文件随机存取管理、海量数据统计、分析等多种场景的应用实践。
  • 二是客户画像与精准营销。金融业面对的客户群体数量众多,需要快速识别目标客户,推出有竞争力的金融产品并进行精准化营销,依托大数据技术的客户画像正是实现该目标的利器,其核心是对客户属性的标签化。
  • 三是交易监控与实时风险识别。金融业竞争中,保证实时性也就保证了竞争的优势地位,要做到交易快速响应,在用户无感知的情况下,完成风险识别等操作,既确保交易的安全性,又不影响客户体验。
  • 四是多维分析与商业智能。
  • 五是基于内容的业务知识智能检索。通过对于用户输入的关键字等内容与海量检索对象进行相似度匹配,并依据相关性高低进行排序,返回用户最可能需要的内容,并基于用户反馈及时调整检索结果,保证检索的有效性。
  • 六是历史交易明细实时查询。随着互联网金融的发展,交易的频度和复杂性也随之快速增长,交易数据源源不断产生,如何提供高质量的数据查询服务,满足客户全天候、场景化且实时性的数据访问需求,成了数据管理的核心命题。

业务交易数据产生于各自的交易系统(如核心系统),并通过交易系统提供当日数据的查询服务。采用Hadoop集群进行历史数据存储,历史交易数据通过数据交换平台获取,通过批量方式每日执行数据导入,数据导入过程支持数据校验和异常数据清洗,清洗处理后的交易数据采用实时数据库HBase作为存储容器,保存业务系统历史交易数据。对外提供了交易数据统一查询服务,覆盖交易系统中的当日交易数据和HBase中的历史交易数据,对终端用户提供统一的数据访问视图。

基于以上这些典型应用场景,依托大数据技术可实现风险实时管控、产品精准营销、支持商业智能决策分析、海量知识快速检索,更好地让数据服务业务发展。目前,农行正在逐步构建从采集、存储、分析、展现到应用的全流程数据服务体系,而在打造全行数据平台的过程中,还需要着重关注以下问题:

第一,价值驱动,架构先行。数据的存储和管理是手段,目标是获取数据的价值。一切对于数据的管理均应基于其价值,对于价值密度高的账户类、交易类数据,不仅要管理好,还要利用好,建立数据间的关联,挖掘潜在的价值。对于数据中台的建设,要坚持架构先行,确立整体数据架构,通过数据治理等手段,加强数据模型的统筹管理,提升数据质量,并结合服务接口管控,提升数据服务能力,逐步实施架构演进,打造数据领域的开放平台。

第二,平台共享,应用隔离。数据共享是价值最大化的前提,共享不仅能减少数据的冗余存储,降低管理成本,还为不同数据间相互关联提供可能性,通过搭建统一管理平台实现数据底层共享,并在上层应用间根据权限要求进行细粒度隔离,满足客户、柜员、行内分析师、监管机构等多层次数据消费需求。对于基于生产数据的压测场景,可以通过在应用层进行数据脱敏等手段实施,既保证压测数据的真实有效,又能避免敏感信息泄露。

第三,合规安全,注重隐私。数据统一管理带来便利的同时,带来的管理风险也不容忽视。由于数据集中存储,对于机房、硬件资源和软件系统的可用性要求也随之提高,通过事前编制预案、事中加强监控、事后实施审计保证数据管理的合规安全。对于数据的违规访问操作,要做到快速预警,实时处置,有效保护客户的数据隐私,真正做到让客户放心。

第四,贴近场景,开放服务金融业的竞争已经在线上和线下同时展开,贴合场景提供服务成了不二之选,数据的加工处理要结合应用场景的需求,真正做到有的放矢,结合GIS信息和客户属性,进行场景化推荐,提升金融服务的精准性和前瞻性。金融数据服务要进行标准化和平台化,对外提供高质量的服务接口,并鼓励第三方基于接口进行系统研发与扩展,延伸服务领域,形成良性发展的服务机制。

总体来看,目前农行数据平台已经从TB级进入了PB级的建设阶段,接下去在可预见的几年内会进入EB级的庞大体量。随着海量数据存储和处理技术的发展,数据的价值将进一步凸显,银行自身要用好数据,基于客户账户数据进行客户画像,预测客户潜在需求,推出有竞争力的产品,防止客户流失,根据客户消费数据,结合场景进行智能推荐,分析客户信用状况,进行风险预测和干预,提升盈利水平,作为金融数据服务提供方,要能在合规的前提下提供高质量的数据服务,打造场景化的金融生态体系。

(作者系中国农业银行研发中心架构管理办公室梁生吉)