清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/国盛证券有限责任公司 包万里

(本文为“证券机构数字化转型与证券科技创新”征文活动入围文章。)

1、数据中台建背景

中台是最早由阿里在2015年提出的“大中台,小前台”战略中延伸出来的概念。业务中台和数据中台是在头部互联网企业的成功应用后,国内各家企业,尤其是金融和证券公司纷纷启动了自己的中台化进程。数据中台向着新一代企业级数据服务框架快速发展。虽然各方对数据中台都有自己的解读和心得。但总体来看,业界形成了对中台战略的一些共识,即主张“大中台、小前台”,通过构建中台,打破“烟囱式”、“项目制”系统之间的集成和协作壁垒,沉淀共享服务,提高服务重用率,降低前台业务的试错成本,赋予业务快速创新能力,最终提升企业的组织效能。

数据智能发展的阶段和趋势:

  • 可用:对数据源提供基本的存储、运维、管理能力;
  • 能用:提供数据平台管理、一定程度的自动化能力;
  • 易用:提供数据资产化、融合化、运营化的能力;
  • 好用:从数据洞察到智慧经营,再到数据驱动创新;

2、数据中台的建设目标

参考阿里的数中台建设方法,制定数据中台的建设目标。以服务应用为向导,重沉淀和共享,支持业务敏捷创新。分为三个面:

(1)一套技术架构持续精进:以Hadoop生态圈为机构基础,一套技术平台不断的演进。一套管控、监控和权限体系。实现技术传承精益求精,技术演进有章可循。

(2)一套建设规范融合统一:建立统一的数据采集规范、统一的需求研发规范、统一的数据资产管理规范、统一的资产服务接口规范。

(3)一套组织架构推进协调:组建大数据团队,负责以中台为核心的数据资产建设,规范的落地。复杂数据文化的运营,推动数据的联通和共享。

3、数据中台的主要架构

从数据收集->信息整合->知识提炼->数据价值->数据服务各个环节总体对数据中台架构进行设计。

4、数据中台核心功能

分为四个核心功能:数据汇聚、提纯加工、数据可视化、价值变现。

4.1 数据汇聚:将业务系统多源数据进行采集汇聚,主要涉及核心交易系统、开户系统、商城系统等。非结构化数据包括用户行为数据和系统日志。从采集时效上划分,包括定时批量采集和数据流采集。

(1)统一的数据采集平台

统一数据采集平台,既可以支持不同数据源的全量抽取,也可以支持增强抽取。支持结构化的数据采集也支持非结构化的数据采集。平台可以对抽取的数据进行统一预处理,然后以统一格式发布到数据交换平台上,落地到分布式数据库中。

支持数据端到端实时处理能力(毫秒级/秒级/分钟级延迟),可以对接多数据源进行实时数据抽取,可以为多数据应用场景提供实时数据消费。

(2)强大的分布式计算和存储能力[i]

支持数据计算和存储具有横向拓展的能力,解决传统数据仓库计算能力和扩容能力差的通病。

支持数据批量计算、实时流式计算。支持数据高可用,具备一定的容错和自动恢复能力。

支持可视化/配置化/SQL化方式降低流式逻辑开发/部署/管理门槛。

支持多租户体系,做到项目级的计算资源/表资源/用户资源等隔离。

(3)高效的任务监控、调度和管理服务

按照业务需求灵活配置多种作业调度方式,提供日历、频度、消息配置等按需的任务调度,支持多角度的作业调度管理,包括事件、文件到达和计划调度以及手工触发。能够监控多种作业的执行情况,并分析作业执行效率,发现作业执行的关键环节。

4.2 提纯加工:根据《证券期货行业数据模型》理清各业务实体,抽象实体之间的关系,构建概念数据模型。整体采用“主体-行为-关系”(Identity-Behavior-Relevance,简称IBR)设计方法进行设计,即以主体(Identity)为核心,外延其各类市场行为(Behavior),并总结其中的相关关系(Relevance),抽取、划分形成一系列针对特定业务场景和应用的数据表,最终形成数据模型总体框架。主体分类包括机构、协议、当事人、产品、事件、渠道、公共等。行为包括经纪业务交易行为、金融非金融交易行为。关系包括持有关系、营销关系、归属关系、抵押关系等。构建模型时,需要保证数据模型统一命名规范,引用统一的数据标准。

数据模型源自于数据仓库建设,是数据仓库核心内容。通过数据统一化、标准化、模型化,使得各业务线、各系统数据可以形成合力。数据模型建设应遵循如下几个原则:

  • 数据模型是面向主题的、集成的、相对稳定的、反映历史变化的证券数据模型。对各系统数据进行整合和清洗,存放明细数据,采取第3范式建模;
  • 共享性,不针对某个特别的应用而设计,实现公共基础指标,保证数据一致性。能够以第三范式存放最详尽的数据,业务发生变化时易于扩展。
  • 标准化,选择性的落地数据标准,对异常数据、空值进行处理。
  • 稳定的,通用的,规范的,易于让技术、业务人员理解和使用。

在数据模型之上,需要构建面向业务条线的数据集市,收集和分析业务指标,将数据加工汇总形成具有服务价值的集合。数据集市建设应遵循如下几个原则

  • 按业务条线建设数据集市,定位于为业务条线内相关应用、分析、展现提供数据支持。
  • 主题汇总层定位于业务指标的计算存储及对外提供指标数据服务。业务指标管理、业务规则制定在规则引擎中。
  • 通过建立数据服务接口向外围系统提供实时数据响应、批量的数据服务。
  • 多采用宽表、星型模型设计,适当冗余,增加应用的便利性。
  • 通常主要采用时间戳,适当使用拉链技术,历史数据保留只限于一定期限。

明确数据集市的建设原则后,我们规划了四大主题数据集市:

  • 经营分析集市:以经纪业务、两融业务、衍生品业务、金融产品为主线,建立起以关键指标监控、趋势分析、问题诊断、业务预测的数据体系。从业务和技术两个方向驱动,实现业务的全覆盖,热点业务的跟踪。
  • 营销分析集市:主要包含用户画像和产品画像。其中用户画像包含基本信息标签、交易标签、用户行为标签等;产品画像包含股票标签、基金标签、理财产品标签等。通过画像筛选目标客户群体及产品,进行批量影响。实时收集整合各系统客户事件,清洗后形成统一的事件模型,辅助实时营销活动。将营销结果数据回流到数据集市,形成数据闭环,进行成效分析并不断优化改进。
  • 投研投顾集市:将多系统的新闻数据、行情数据、宏观数据进行整合,建立资讯中心。文本类数据进行自然语义分析,标识概念类标签、事件类标签及舆情标签等。结合股权类知识图谱、产业知识图谱进行投资研究分析。结合客户画像,进行资产配置模型训练,辅助科学智能投顾。
  • 风险数据集市:涵盖风险计量和监控的业务需求,支持对证券公司资金交易包括债券、回购、拆借、贵金属等资金产品风险计量和风险监控工作。覆盖市场风险外,还支持信用风险、操作风险、流动性风险的指标测试、监控和预警。

4.3 数据可视化:数据可视化在数据中台是非常重要的功能,是用户最能直接感受到的价值所在。在业务规则基础之上,提供三类可视化服务:

  • 建立高管驾驶舱和管理驾驶舱,为管理层提供一个简明图形化的信息展示平台。通过建立企业业绩的跟踪指标体系,满足管理层对业绩的及时监控。以时间维度对多指标进行趋势分区,发现业务发展变化。以营业部为单位进行纵向对比,对业绩垫底或者下滑的营业部进行督导。
  • 构建固定格式快速开发能力、多渠道集成能力、多模块封装能力。对于简单格式,清单类的报表使用B/S的开发模型,快速灵活的满足需求。对于功能复杂、用户体验要求高的采用C端开发的模式。
  • 提供可进行权限管理的自主分析模块,可按行列按报表设定权限,保证数据安全和开发的灵活性。以多维立方体数据的组织方式提升用户自主分析能力和体验。
  • 提供外部集成接口,满足其他系统数据可视化的集成需求。完善多渠道的报表集成、触达机制,把数据主动送到用户手中。

4.4 价值变现:

(1)洞察分析:除了工具的构建外,更要思考如何将数据发挥应有的价值。大多数企业数据更多是作为报表使用,很少挖掘数据,而是依靠个人经验进行决策。没有实现数据价值对企业流程的驱动。我们可以从数据分析中发现的规律、趋势等,进一步通过数据洞察得出的价值,包括决策运营、预测机会等。

①业务分析描述,包含业务全链路数据计算,KPI监控。

②业务诊断,数据之间是存在因果联系的,这些联系有些容易通过业务来解释,而有些恰恰是业务无法直接看到,需要通过数据发现联系。从整个业务链路和数据之间的联系出发,通过关联分析,波动分析,平衡计分卡等方法,找到数据变动的原因。

③业务预测,预测融合模型产品化,通过傻瓜式的点击按钮,让业务用户可以自己做预测。

④自动化决策,目前企业还实现这一点还比较困难。但数据化程度比较高的大型企业和互联网金融企业,已能支撑部分业务自动化决策。

  • 数据服务:数据中台对业务中台和前台提供服务包括连给批量和实时的数据服务。根据实际应用的场景,提供查询类API、模型类API、以及JDBC数据查询。

JDBC数据查询:针对大吞吐量的消费场景,采用批量文件的形式提供数据服务。缺点是时效性低,往往是T+N的业务场景。

一般查询API:针对小吞吐量的消费场景,根据输入参数进行实时或准实时的数据响应服务,高可用底时延。缺点是吞吐量较低,不满足大批量需求场景。

智能查询API:将参数输入到已训练好的数学模型中,将模型的评价结果返回给需求方进行业务决策。模型需要不断的训练保证准确性和稳定性,缺点是吞吐量较低,不满足大批量需求场景。

数据服务要求具有接口配置化、智能监控、高可用等技术特征。对业务中台和前台实现强有力的数据支撑。随着数据服务的接口数量的不断增加,数据共享和数据复用的效果就越多,数据中台的价值体现愈加明显。

5、数据治理建设

数据治理越来越受到银行、证券、监管机构乃至国家层面的重视。金融机构已经意识到高效的管理体系、统一的数据标准、良好的数据质量才是数据价值实现的基础。数据中台的建设离不开数据治理工作的开展,行业基本形成共识:数据治理是企业数据化转型的基础。

5.1 数据治理的定义

广泛认同的数据治理定义为“数据治理是围绕将数据作为企业资产而展开的一系列具体化工作。”数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进策略、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。

5.2 数据治理的建设目标

以“科技赋能,加快数字化智能化转型,驱动IT与业务融合发展”为三年规划目标,数据治理是数字化智能化转型的基础。明确数据治理工作的目标,即明确数据治理的组织架构,自上而下监督执行;完善数据治理的流程和制度,实现全方位的治理;搭建数据管控平台,让用户可感知;确保企业数据的质量,达到可用性,可集成性,安全性和易用性。

5.3 数据治理内容框架

基于国际DAMA数据治理体系,结合国盛证券实际情况,构建数据治理内容框架,作为指导落地实施。

5.4 数据治理推进方式

元数据管理:元数据管理对接各个业务管理系统,定期抽取元数据,对比元数据变化。根据变化可以自动分析得出影响的表、模型、集市,进行及时的预警,通知运营人员进行调整。建立元数据之间的映射关系,处理的逻辑描述,支持逆向的血缘分析。提供元数据查询功能,展示基础的数据资产。提供API查询功能,对接各系统提供元数据服务。

主数据管理:将采集的各系统表进行分门别类,建立资产的目录。将同一客户、同一业务信息为主题的的数据汇聚到数据平台,实现统一数据存储、统一数据模型、统一数据服务。

数据标准管理:公共代码标准指词根库,对字段名称、表名称建立规范的约束。基础数据标准是指对字段应的码值建立统一标准的约束规范。在不同业务场景中,应遵守同一个基础规范。指标规范是指业务定制的各类指标,原则上应遵守统一规则、口径,尽量复用已开发好的指标。通过标准的逐步落地,系统级标准逐步转化为企业级标准。

数据模型管理:根据业务的发展,对IRB设计出的数据模型进行维护和升级,适应新业态和新变化。

数据质量管理:

及时性:数据更新是否及时和满足用户需求的程度;

唯一性:记录、实体是否是一个且唯一、无重复的值;

规范性:数据是否遵守有关标准、约定或法规的程度;

一致性:指统一数据来源、统一存储和统一数据口径

完整性:数据是否遵循有关标准、约定或法规的程度;

准确性:业务操作的所需要的数据是否完备;

数据生命周期和安全管理:数据安全管控体系包括数据安全风险识别、数据生命周期安全保障、数据安全事件管理、数据安全审计、组织与岗位建设。其中数据生命周期安全保障是重点内容,包括制定数据安全策略、数据安全制度和方案规划;建立数据分级分类,建立数据安全等级;制定数据存储过程安全测试,实现数据容灾备份;制定数据使用过程的安全策略,实现数据访问控制和脱敏保护;制定数据归档安全策略,实现介质管理和流程审计;制定数据销毁安全策略,保证数据销毁、介质销毁。

数据需求管理:业务团队提出需求是持续的、分散的。这要求数据治理团队参与需求开发的整个流程中,将数据治理的工作纳入到各个阶段中,发挥更好的效果。

需求梳理阶段:对需求提出修改意见,包括已有数据标准的界定和引用,未有数据标准的梳理、建立。

逻辑设计阶段:对设计的逻辑模型进行审核,包括新建模型、模型优化内容的合并。

物理开发阶段:对设计的物理模型进行审核,包括词根、数据映射关系等是否准确。

投产运维阶段:对新增和修改的数据标准进行发布更新,对数据质量进行异常监控。对变更需求进行影响分析,持续运维。

治理文化推广:数据治理文化建立是一个长期的过程,需要持续的进行宣贯,使相关人员能从“不知道”到“知道”,并逐步过渡到“理解”并“会应用”的阶段。

6、系统应用成效

根据系统架构设计方案,以CDH为核心搭建国盛证券数据平台,以Hive、Impala作为批量计算和查询引擎,以Kafka/SparkStorm/SparkStreaming作为实时计算引擎,以帆软Finebi和FineReport作为可视化工具。

6.1 数据汇聚成效:以DATAX作为批量采集工具,以DSG-SuperSync数据实时同步工具。打通了系统间数据孤岛,初步形成了有效的数据资产。奠定了客户数据、业务数据全链条的统计、分析的基础。采集系统包括恒生交易柜台,新意法人,投资交易O32,恒生内控,思迪非现场等。

6.2 提纯加工成效:

经营分析数据集市:构建一套涵盖客户、产品、交易、行为的数据模型和统一指标。涉及部门包括经纪管理总部及分支机构、网络金融部、运营管理总部、风险管理部、财务部等。目前涵盖各业务线大部分可线上化计算的大部分指标。

营销数据集市:构建了客户画像,对用户的基本属性、资产、交易、盈亏、投资能力、投资风格进行了综合评价。整合了APP等渠道的客户行为,形成行为标签。引入了公募基金的产品评价指标,实现公募基金盈利能力、业绩稳定性等多方面评价。通过客户画像和产品画像结合,建立不同产品的预测模型,形成目标客群。对精准营销进行支撑。

6.3 数据可视化成效:

驾驶舱:针对管理层搭建了PC端和移动端驾驶舱报表。对关键指标及趋势进行了统计和对比。能按营业部、分中心维度钻取明细,分析得出异常点。利用帆软报表工具与企业微信集成,用户通过手机、平板等移动终端浏览访问日常的报表数据。管理者可随时随地了解掌握公司各项业务关键指标数据,辅助经营管理的快速决策,以及预判经营异常情况。

固定格式报表:实现各部门定制化需求,将数据转变为生产力,逐步提高各部门的工作效率。与CRM报表进行集成,向分支机构进行推广使用。固定报表需求由业务驱动,用户点击率较好,平局点击率在每周2/次以上。

自助分析:向部分自主分析能力较高的部门开放了自助分析权限。用户可以在平台进行数据录入,图表设计。适应了用户灵活多变的需求,提高了办公效率。

6.4 价值变现:

账户分析:客户画像的构建支撑了客户服务的多个应用。目前已上线普通客户账户分析,每日总结客户盈亏情况、投资能力、投资风格等,通过APP给客户提供查询服务。

精准营销:结合不同的业务场景,设计不同的营销流程。例如开户断点流程、金融产品营销流程等。流程设计全面考虑客户的不同行为,制定形成分阶段、多波次的营销方案。将营销的结果数据回流,形成数据闭环,逐渐调优实现高效的数字化运营。

7、总结与展望

数据中台作为新一代的企业数据中心,承担了更多与业务中台、业务前台交互的新的功能。国盛证券数据中台建设还处于初步阶段,但吸取了同业在大数据领域的建设思路和经验,因此建设的质量和效果达到了预期。

数据中台强大的数据采集和和计算能力,打破各个系统的数据壁垒。使得以前难以实现多系统数据整合成为现实,让数据形成了合力。通过洞察和分析,跟进一步挖掘数据背后的一些规律,辅助了经营和决策。与CRM、积分系统打通,形成分等级的客户权益激励策略。

精准营销方面,对客户进行了分群分类,支撑总部对低活跃客户进行线下营销。支撑了新三板、科创板、创业板、两融客户潜在客户的挖掘和营销,促进了业务的积极拓展。其他方面,例如客户回访、合规监控、风险计算等,都不同程度的发挥了数据中台的作用。

数据治理方面,实现数据元数据集中登记、数据标准管理。对关键和易错的数据进行了质量自动化监控。同时建立了人工复核机制,每日定时对报表指标进行异常识别,异常处理。保证了数据质量和系统稳定性。

除了我们取得的一些成效,数据中台仍然面临一些问题需要需要重点解决。

(1)进一步夯实基本功,深入大数据技术的引入和研究,提高数据计算性能。数据实时采集能力和范围需要进一步扩大,覆盖整个企业数据进而形成数据湖。

(2)以业务需求驱动会导致结构比较零散,难以成体系。由于需求的反复占用了团队成员的大量时间,需要从技术视角主动取丰富和完善数据分析体系。做到业务的全覆盖,热点业务的及时跟进。

(3)大力推动数据治理的方案的落实,从规划制度、组织架构、管控平台等角度,自上而下,自下而上去建立企业的数据治理体系。保障和支撑企业数字化转型。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。