清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/联储证券有限责任公司李兵、马永泉

(本文为“证券机构数字化转型与证券科技创新”征文活动精选文章。)

摘要:随着近几年金融市场日新月异的发展、证券公司的数字化转型、以及“严监管”的常态化,“相互孤立、独自运行”的资讯数据应用的建设方式越来越难以满足业务上的需求。本文从证券行业的应用现状出发,分析证券业务对金融资讯数据的新需求,借鉴数据仓库的建设方法论,研究设计新一代资讯平台应用架构,以实现资讯数据及应用需求的统一规划和集中管理,从而更好的支持证券业务的发展。

关键字:大数据、标准化、资讯平台

一、引言

近几年随着证券公司数字化转型以及“严监管”的常态化,各种金融数据的检索、整合、应用日益体现出其特有的价值。搭建集中化、个性化资讯平台可以集中发挥公司各类资讯数据资源的特色优势,节约了信息资源投入,提供更多高附加值的信息资源,从而为推动公司业务模式的创新和转型发挥积极作用,为维护公司差异化服务和品牌竞争带来特色优势。

二、资讯数据应用现状

目前资讯数据的使用在大部分证券公司存在以下问题:

1、对于单一资讯数据源过度依赖,数据源更换成本高

缺乏统一的数据规范,从资讯数据源采集的数据直接进入应用系统,一旦在数据源上发生了任何的变动,应用系统往往都需要进行相应的调整,一个微小的变化都可能会带来较大的影响。

2、资讯数据、数据接口文件、资讯终端重复采购,成本高昂

对于落地数据库的采购,大部分证券公司会由各业务部门独自完成,该方式会造成重复采购,形成数据的“一数一用”的情况,无法实现资讯数据的共享。证券公司部分系统,如:交易、估值、风控系统,需要使用资讯数据时,通常会通过采购资讯数据接口文件的方式实现,事实上接口文件可以通过对资讯数据库的数据加工得到。另外,因为缺乏对资讯数据库的有效应用,每年还需要花费高昂的费用采购大量的资讯终端,用于工作人员日常业务分析等工作。

3、资讯数据更新速度存在滞后的风险

第三方资讯商需要对其采集到资讯数据先进行分类、清洗、落库,再分发给证券公司。从新闻发生到证券公司收到数据,并进行展示,该事件有可能已经是几分钟、一个小时甚至是几天之前发生的事件,新闻的及时性得不到保证。

4、资讯数据应用方式较为初级,缺乏与业务场景深度结合

当前资讯数据的应用以各种形式的浏览检索为主,缺乏对特定业务场景抽象成特有的逻辑模型、形成专有的数据指标或算法的应用。

针对以上问题,建设一个向下可以弹性兼容各个不同的数据源、向上可以为公司各应用系统提供资讯数据支撑,并可以满足各类资讯数据应用需求的资讯平台显得非常重要。

三、证券公司对资讯数据的需求分析

目前证券公司对资讯数据的应用根据用户群体不同可以分为两大类:一是公司内部使用,为业务系统、公司员工提供数据支持;二是对外服务客户,为客户提供优质的资讯服务。

对于公司内部,按资讯数据使用场景主要包括:行业研究、投资分析、风险控制、监管报送、信息检索以及系统对接。

以上无论哪种需求,对数据的时效性、准确性都有很高的要求,同时对于资讯数据整合与深度加工的需求也越来越强烈。

四、资讯平台应用架构设计

数据仓库在国内金融行业的建设与应用已有二十多年的历史,取得了显著的成果,并且形成了较为成熟的方法论。资讯平台的应用架构可以参考借鉴数据仓库的方法论,并结合资讯数据的特点进行规划设计。

在数据仓库的设计中,核心要点有三项:数据分层架构,逻辑整合模型,数据标准化。数据分层架构是指根据数据及数据加工过程的特点,对数据进行分层处理与存储,每一层都有自身的定位与用途;逻辑整合模型是指根据数据的业务含义,将所有数据整合到一套数据模型中,从而完成数据的逻辑整合;数据标准化重点是定义标准化的数据编码和数据指标口径,并根据这些标准进行数据标准化处理。

一个典型的金融行业企业级数据仓库的数据分层架构如下图所示:

其中,缓冲层主要为了进行各类异常处理,是出于纯技术需求而产生的;贴源层基本依照源数据系统的数据结构进行存储,只进行非常基本的数据质量检核;整合层是将所有数据整合到一套逻辑模型中,并且在此过程中完成数据编码的标准化处理;指标层根据数据标准加工和存储各类数据指标;集市层则是面向具体的应用领域,将数据加工和存储为便于该领域应用的结构。

近年来,随着大数据技术的成熟,金融机构纷纷基于大数据平台建设新型数据仓库。其中,数据架构在上述经典的分层架构基础上,增加了实时数据区和非结构化数据区,进而可以满足实时数据和非结构化数据相关的需求。

当前资讯数据的应用架构几乎没有数据分层架构,但实时性较高,且结构化数据与非结构化数据并存。

新一代资讯平台的建设可以参考借鉴数据仓库的方法论,即建立数据分层架构、设计逻辑整合模型、完成数据标准化处理,同时确保数据处理的时效性。

4.1 建设规划

一个完整的资讯平台的建设需要较长的周期和较大的投入,适合采用“总体规划、分步实施”的原则,每个阶段都有相应的成果。从建设的重点来看,首先实现资讯数据的物理整合,然后实现编码标准化与逻辑整合,最后实现指标提取与标准化。从应用场景来看,首先提供给投研和风控使用,再推广到财富管理、经纪业务、机构业务等领域,最终实现全部集中式使用和管理的目标。

资讯平台系统架构如下:

根据上述系统架构与建设原则,规划如下:

数据源建设规划:

第一阶段,接入单一资讯数据源(“单一”是指一类数据只接入一个数据源);

第二阶段,通过爬虫系统采集个性化数据;

第三阶段,对接多家资讯数据源,并可以实现数据源对比、去重等操作。

数据处理规划:

第一阶段,设计逻辑整合模型,将所有资讯数据纳入统一的数据模型;

第二阶段,定义数据指标,将结构化数据加工成指标;

第三阶段,引用新技术,对非结构化数据进行指标化处理。

后台功能规划:

第一阶段,实现用户管理、权限管理、系统监控、日志管理功能,做到与公司统一用户平台进行关联。

第二阶段,设计开发统一的数据服务层,为各类系统对接和算法应用提供统一数据服务;

第三阶段,记录用户对数据的使用情况,并可设定计费规则,在公司内部实现资讯数据的按使用付费。

平台展示规划:

第一阶段,实现以下基础性数据的展示:

a、各金融品种基础数据:包括股票数据、债券数据、基金数据、权证数据、衍生品数据、港股数据、行情数据及指数数据;

b、宏观、行业数据:包括宏观数据、各行业产量、指数、财务、价格数据以及金融行业数据等。

第二阶段,引入新技术,实现非结构化数据的结构化与标签化展示;

第三阶段,在完成了资讯数据的指标化处理之后,为用户提供自助分析功能。

4.2 数据分层设计

资讯平台建设的核心工作主要体现在以大数据技术为基础的资讯数据中心的建设,该项工作的成败直接影响到资讯平台最终的建设成败,借鉴数据仓库的成熟经验,数据逻辑架构分为五层:缓冲层、贴源层、整合层、指标层、集市层。

缓冲层:数据采集的暂存处,仅保留最近几天的数据。

贴源层:接入丰富的数据源,采集到的数据首先进入贴源层,其结构和源资讯数据结构保持一致,不进行调整。此层的作用不仅可以降低源系统的压力,还可以作为接口直接给其他应用系统提供数据。

整合层:将贴源层的数据进行编码标准化,并引入逻辑模型规范,实现统一的资讯数据模型和数据标准化,本层为以后所有的应用提供基础数据。

指标层:依据业务场景进行数据细化分解,然后提炼共性,形成标准化的指标因子,统一口径,避免重复计算。本层的数据处理不仅要考虑前期的需求,同时要放眼未来,并且随着需求越来越多不断进行提炼和丰富,减少以往数据处理过程中相同指标在不同业务中口径不一致的情况。

集市层:根据具体应用场景,通过对各项指标的组合,形成各类应用数据。

数据层次和关联性:

资讯平台将基于对各核心业务元素的业务模型分析来建立,一旦建立完成,将不再频繁变动,以确保对于前端各种业务和分析的稳定支撑;而一些非核心的业务元素以及暂时不在核心业务模型中的一些信息数据,则会存储在各种贴源层和集市层中;随着应用的成熟和业界对于这些数据的认识的改变,可能会随着资讯平台的业务模型升级而逐渐整合到金融中心数据库中去。但是一旦资讯平台建设完成,稳定性和准确性将是第一位的,所以数据结构将不会非常频繁地变化,更新时也将慎重地考虑对于各类前端应用的潜在风险。

数据流向:

资讯平台的建设,实际上是把资讯数据的一个数据链集成在一个统一的系统平台中进行管理,进而通过资源的整合和统一的管理,达到信息应用价值的最大化和信息在整个流通渠道中的低损失传输和基于明确流通目标的信息传递。

资讯平台建设的过程,也是对于整个金融数据链中的各个环节的生产和需求进行整合和流程优化的过程。所以,从数据流向和信息传递的角度来审视整个资讯平台的建设,是十分有必要的,也有助于优化流程,明确每个层次和环节的关键优势和核心步骤,从而为业务流程设计和数据信息流之间设计最优化的整合方案。

我们从信息的生产、加工、使用和获取的角度来对整个业务信息流进行分析,其逻辑层次图如下所示:

数据整合

资讯平台数据的准确性和全面性在很大的意义上取决于数据源的质量,从数据源整合的角度看,一方面目前市场上的同类信息比较多,对于一些公开的信息,各家金融数据厂商都在做,并且最终产生的数据库结构也大同小异,只是在准确性和及时性上有一定的不同。

所以数据的全面比对在系统建设初期并没有太大的必要,选择一家数据的准确性和及时性都能得到保障的数据源,并直接在数据源的基础上进行各种数据转换和整理,既能缩短数据从接收到最终应用的时间,也能降低系统的复杂度,同时由于标准数据本身的准确性就能得到足够的保障,所以系统建设初期,这么做的性价比是最高的,也是事宜的。

而另一方面,资讯数据的价值密度较低,需要依靠自己的研究部门和研究人员在方法论和经验模型的基础上进行二次数据加工和挖掘,这是形成公司的金融数据方面的核心竞争力所在。

所以,在选定了基础数据源的提供厂商后,后期系统建设在数据整合方面的工作将更多地集中在根据应用的需要,一方面要依靠公司研究力量,自行生成一些有深度、有价值的二次应用数据,另一方面通过爬虫系统及新技术的引入,更多地整合增值数据,为应用部分提供更有利的数据 。

4.3 业务模型设计

业务模型设计主要涉及到业务对象模型设计和数据库存储结构模型设计,是资讯平台建设成败的关键,是数据指标化的前提。业务模型中包括的核心业务元素有:行业、宏观、机构、个人;股票、基金、期货、权证、债券、指数等。

业务模型主要包括三个方面的内容:

1、金融市场各个方面的公开数据

上市公司信息:内容涵盖中国资本市场主要金融品种的交易数据、财务数据及各类公开披露的信息。包括:上海证券交易所和深圳证券交易所全部上市公司的基本资料、发行资料、交易数据、分红数据、股本结构、财务数据、公司公告及其它重要信息。

金融产品信息(包括:公募基金、券商集合理财及信托等):发行上市资料、净值、投资组合、收益和分红数据、定期报告、财务数据等。

债券基本信息:债券的基本资料、计息和兑付数据、交易数据等,以及各类收益率曲线等衍生数据,并提供支撑债券定价计算的数据结构。

指数数据:中国证券市场指数(沪深交易所指数、银行间债券市场指数、MSCI 中国指数、新华富时指数、中信指数、申银万国指数等)和海外市场指数的基本资料和交易数据。

4.4 业务指标设计

基于数据模型建立标准化业务指标,通过对业务指标的不同组合实现投资分析、舆情监控、行业研究等功能,主要业务指标设计如下:

4.5 业务功能设计

资讯平台主要以B/S形式为用户直接提供数据浏览查询、人工采集与用户系统管理等;在数据接口方面,将整合后的资讯数据资源以数据库接口或者服务接口形式分发给各业务子系统使用。

五、总结和展望

资讯平台的建设是一个持续过程,需要不断的迭代更新,目前的资讯数据还是以外采第三方数据为主,个性化的数据源接入及数据加工还比较少,未来机器学习、自然语言处理等新技术的引入,在资讯数据处理分析中会形成独居特色的数据服务。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


发表评论
您的评论提交后会进行审核,审核通过的留言会展示在上方留言区域,请耐心等待。
猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。