清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/恒泰证券股份有限公司 金学禹、聂文婷

(本文为“证券机构数字化转型与证券科技创新”征文活动入围文章。)

2020年初,新冠疫情引发了全球范围内前所未有的“封城”举措,大中小企业均面临严峻的挑战,也深刻意识到数字化转型的重要性。已经有不少企业开始利用数字化策略,通过加快企业信息化与数字应用进程,有效保障企业复产复工的效率。而证券行业相对其他行业来讲,数字化转型不仅仅是利用数字化手段来解决线上办公、视频会议、在线研发这样的内部管理问题,更是要从业务本质出发,利用人工智能、大数据、区块链、云计算等技术手段推动金融创新,形成对金融市场、机构及金融服务产生重大影响的业务模式、技术应用以及流程和产品。

一、大数据技术在证券行业的发展情况

证券行业作为世界上数据最为密集的行业之一,拥有大量的证券交易数据、客户数据、监管数据、行情数据等结构化与非结构化数据,这些数据具有体量巨大、高速产生、类型多样、分布协同的特征,证券行业天然需要通过大数据技术来推动业务的转型升级。

近年来,国内的证券公司逐步意识到大数据在企业数字化转型中的作用和地位,在大数据应用领域快速布局。在实际应用过程中,大数据应用并不是简单搭建一个大数据平台跑跑数据分析就算成功。技术升级与公司业务转型的契合、公司文化和心态的转变、组织架构的调整、相应制度的建立等,都需要有一套完整的解决方案。全方位的数字化转型势必要通过“以客户为中心”来统筹数据管理、构建业务逻辑,但证券公司内部各个组织之间,不同业务板块之间发展不平衡,历史包袱、系统割裂、数据孤岛都客观存在,转型之路任重道远。可以说,全方位数字化转型将重塑证券行业未来竞争格局。头部券商依靠雄厚的资本、先发的优势,势必吸引更多的优秀科技人才,大量积累的客户数据形成规模效应和大数据服务模型,同时在投研、资管、投行等方面的综合实力更强,有能力为客户提供更加专业的数字一体化服务。对于中小券商来说,金融科技的发展需要大量资金和人才的投入,一定程度上提升了转型的门槛,如何探索差异化发展的道路,借助大数据技术整合内部资源,或将成为中小型券商突破竞争瓶颈的关键。

二、大数据在证券行业的平台设计与实践

2.1 数据采集

数据采集作为大数据系统体系的首个环节,对于平台来说尤为重要。因此需要建立一套标准的数据采集体系,用以标准规范、保证性能、高覆盖率地采集海量的数据,并传输到大数据平台。其中数据采集分为日志采集与数据库等数据文件的数据同步采集。

数据采集规范方面,恒泰证券大数据平台统一了WEB与APP的埋点SDK,方便不同技术栈开发者以同样的方式调用;在数据层面,保证了日志格式的统一,有利于用户行为模型的定义与描述。

针对用户行为,数据规范对日志做了模型化处理,即日志中体现:用户(WHO)在什么时间(WHEN)什么地点(WHERE)做了什么事情(WHAT),称之为用户行为4W模型。对于用户行为数据,从事件分类上又具体分为页面事件、点击事件、统计事件,极大地满足了用户行为埋点丰富程度。

2.1.1日志采集

日志数据的采集主要是为了进行后续的数据分析,例如APP端数据采集,既可以帮助开发者分析各类设备信息,同时也能与产品端相配合,更好地了解用户,从宏观及微观角度洞察用户的各种行为,从而进行产品的优化迭代。

日志数据,包括了WEB页面、客户端APP、服务端日志等日志数据。对于WEB页面、客户端APP日志,更多的是用户行为数据的采集,采用埋点的方案,将数据实时传回大数据平台。

APP端日志上传,采用向服务器发送post请求的方式,服务器将数据追加到log文件中。其中APP端上传并不是将事件日志逐一实时上传,而是先将数据缓存在客户端,当累积到一定数量(如:100条)后批量上传。同时考虑到实时性的需要,当一定时间(如:5分钟)内没有达到批量上传的数量,也会将日志上传。

服务端在收到数据后会采用实时采集的方式将数据传回大数据平台,并进行数据解析后输入到消息队列,进入流式计算环节供应用服务使用。

2.1.2数据同步

证券公司IT系统里的数据源除了日志外,还有很重要的业务数据。业务数据普遍存储于关系型数据库中,如Oracle,MySQL,SQL Sever等,同时还有来源于文件系统的结构化或非结构化数据。

大数据平台的功能之一是数据集成,将不同来源、不同形式的数据整合在一起,所以从不同业务系统将数据集成到数据平台是非常重要的工作。

对于业务数据来说有两个特点,一是数据来源多样性,二是数据量大。所以需要针对这两种特性来设计数据同步服务。

图1 数据采集服务架构图

2.2数据开发

大数据平台的采集系统收集了大量数据后,只有经过整合与计算,深入挖掘建立合适的模型,才能被应用于各类业务中,从而实现大数据的价值,达到赋能业务和创造价值的目的。

对于海量数据与复杂的计算,大数据平台需要解决两大问题,数据存储与计算平台,本节针对数据开发过程中遇到的问题进行研究与介绍。

图2 大数据平台数据流转架构图

2.2.1离线数据开发

与传统数据开发相比,基于大数据平台的数据研发有以下特点:

  • 业务需求多且变更频繁
  • 数据需求交付周期短
  • 数据种类多数据量大
  • 系统环境复杂

由于数据研发人员技术栈的不同,导致在大数据平台上的数据研发工作任务成本变高。通过统一的计算平台与数据研发规范可以在一定程度上解决这一问题。

大数据平台的计算服务基于hadoop提供的mapreduce计算模型,解决了并行计算的难题,但开发复杂、学习成本高,所以大数据平台通过hive提供一套完整的基于sql的开发套件,为来自不同研发人员的各种数据处理任务提供统一的编程接口,并且提供性能与稳定性的保障。

2.2.2流式数据开发

在大数据平台,离线计算承担了大部分计算任务,但随着数据应用的越来越广泛,数据挖掘的深入,对数据的实时性要求越来越高,如果大数据平台不能实时处理各业务线的数据,就无法保证数据的新鲜与价值最大化。

流式计算技术是对离线计算技术的重要补充,已经成为大数据平台的标配,并且担当了重要角色。流式计算简单来说,就是系统每产生一条数据就会被采集系统立刻采集并实时发送到流式计算任务中进行处理。

流式计算有着时效性高、性能要求高、数据无限等特点,所以在架构设计上要有针对性。同时,计算任务严重依赖于采集任务于数据的输出,要进行整体考量。

图3 实时采集与流式计算技术架构

2.3 数据管理

数据平台搭建完成之后,还要保证数据的质量,所以数据的治理与管理尤为重要,主要是为了保障数据资产的完整性、准确性、一致性、及时性。根据指定的规范开发模型、校验模型、管理模型,为业务提供统一的、准确的指标。

2.3.1元数据

元数据可以认为是数据的数据,打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。可以帮助开发人员方便的找到其所使用的数据,并根据元数据进行数据管理和开发,提高了工作效率。

元数据的质量直接影响到数据管理的准确性,所以要设计一套完整的元数据体系。首先梳理最底层数据,对元数据做分类,减少数据重复建设,保障数据唯一性。同时要丰富元数据表和字段的使用说明,方便使用和理解。最后提供标准统一的元数据服务,打通生产端与消费端之间的链路。

2.3.2 存储管理

在大数据时代,网络应用种类繁多,用户对网络的依赖日益加重,背后意味着数据爆炸式增长,对大数据平台提出了新的要求,存储管理成为大数据平台的核心之一。有效的降低存储成本,提高数据的使用效率是存储管理的重要目标,

在分布式文件系统中,为了提高可用性与性能,数据往往有多个备份,所以数据压缩成为降低数据成本的重要手段之一,这中间要充分考虑到平衡数据读取效率和存储成本,采用合适压缩比率的压缩技术。

通过元数据,周期性的对数据进行巡检,对数据无更新、无访问、无任务等数据表进行优化处理。

数据的生命周期管理是存储管理的重要手段,对数据按照生命周期进行分类,对于没有价值的数据逐步进行淘汰处理,达到用最少的成本存储最优价值的数据。

2.3.3 数据质量

数据质量是数据分析结论有效性和准确性的基础,保障数据质量是大数据平台责无旁贷的任务。

对数据质量的保障,首先要确定数据质量评估的标准,根据需要从以下4各方面进行评估:完整性、准确性、一致性、实时性。

数据质量建设是一套完整的工作方法,需要数据需求方、开发人员遵循一定的方法与标准,包括需求审核、数据加工各环节校验、测试标准,同时要针对数据指令各方面提供相关工具,以提高效率与工作质量。

三、大数据的业务应用与研究

作为业务发展的重要技术支撑手段,大数据技术已经逐渐融入证券公司日常工作的各个环节,通过大数据建设总体规划,实现公司内外部数据进行融合,建立统一和多维化的公司数据模型,实现数据驱动的业务模式创新,原来业务运营是靠人、靠经验为主,现在是以数据驱动,这样所有的过程和结果都可以量化,凸显数据驱动业务创新的新业态。

下面通过企业管理、客户营销、客户安全和产品研发等领域的大数据应用案例,简要阐述大数据平台在证券行业的业务应用。

3.1 智能管理

随着证券公司大数据中台的建设,各部门各业务数据的统一接入,实现数据集中、口径一致,确保公司各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为证券公司重要资产的业务价值,实现公司内部数据共通共享。在业务管理上,实现产品、客户等数据的企业级视图的统一,有效促进业务的集成和协作,并为企业级分析、协同开发、交叉销售提供基础。同时按角色聚合业务数据,让不同层级的管理者及员工对业务目标始终有着全面清晰的认知,比如恒泰证券的网点管理平台和员工端超级APP,就是基于大数据技术提升中台能力,进而提升公司的管理效率和投产效率。

3.2 客户营销

随着互联网深化发展,线上流量红利基本殆尽,而证券行业特有的获客成本高、用户转化节点多、转化周期长的特点却没有改变,需要利用大数据技术精准营销客户,促进活跃用户稳步增长的同时不断提升用户的生命周期。这种建立在精准定位基础上的营销活动,可以最大限度的摊平运营成本。

根据客户多维度的数据描绘每个客户的画像,包括风险等级、个人属性,账户资产,操作数据,偏好信息等,通过标签和推荐模型给不同类别的客户匹配不同的资讯与产品信息,从而提升营销成功率,减少冗余信息对客户干扰。在传统的数据运算模式下,数据为集中存储,串行计算,即客户数据存储在一台服务器上,必须先计算完一个客户的数据再计算下一个客户的数据,当客户数量巨大的时候,存储器的存储负荷过重,运算非常浪费时间。而恒泰证券的大数据平台做系统架构的时候选择采用分布式存储,并行计算的运算方式,将客户数据存储在分散的存储器中,构成一个虚拟存储系统,可以在同一时间计算客户数据,极大提升了运算效率,实现了面向千万量级客户实时精准营销的能力。

3.3 客户安全

2020年4月,有A股投资者股票账户被盗,卖出全部持仓股,全仓买入“庄股”济民制药,次日一字跌停。新闻一出市场哗然,遭受损失的股民更是走上了维权之路。在账户安全层面,证券公司有责任和义务通过金融科技的力量,尽力保护投资者免遭“黑产”对财富安全的侵袭。恒泰证券为此推出安全微管家服务,实时拦截异常风险,极速提醒客户异常。

传统的账户安全规则一般包含这些规则:

  • 非常用设备、非常用网络环境登录
  • 非常用手机号激活登录
  • 短时高频异地登录
  • 连续登录失败锁定及密码操作异常

但是黑客也会相应的升级针对措施,如大量变换IP,缓滴间歇式撞库,让传统的安全规则在现有的攻防形势下显得不太够用。

前文提及的证券公司都搭建了数据埋点系,基于大数据平台的实时数据采集和流式计算系统,收集了用户的访问时间、停留时间、页面路径、页面点击详情等数据。这些数据沉淀下来,除了应用到用户画像、精准营销、产品数据分析等业务,在安全这个领域也大有用武之地。通过整合用户历史信息,形成一个多维行为画像作为基线,当用户实时行为产生变化而不可信时,即可实时提升风控等级,如通知客户、拦截验证甚至锁定账户的方式保障账号安全。大数据与AI技术相互融合,通过机器学习模型,挖掘聚类高风险行为特征,能做到事前防范、提前预警的效果。

3.4 产品投研

大数据平台的技术与数据也会直接成为智能化产品服务,将用户产生的数据反哺为用户服务。 比如恒泰证券即将上线的热股产品,就是根据用户的搜索、浏览等一系列行为,结合行情交易量等数据,研发的一款智能产品。热股产品创新性的引入物理模型,基于大数据平台实时分析计算,利用牛顿冷却定律,实时计算出当前的股市热点。

在策略模型投研层面,证券公司还可以基于大数据机器学习技术,对技术面、基本面、资金面、新闻研报多种因子组合,甚至引用新闻舆论等外部数据来构建产品逻辑,使用历史大数据进行训练,并且能通过新数据不断改进的模型参数。同时根据每一个客户在流动性需求、风险属性、资金门槛属性的具体情况,用量化模型自动计算出适合客户的大类资产配置方案,实现金融普惠化。

四、小结与展望

金融行业唯一不变的就是变化,金融和科技之间的融合不断加深,金融生态的演进在金融科技的催化下越来越快,代表未来的力量能生存下来,落后的一定会被淘汰。大数据技术作为金融科技浪潮的代表技术之一,在产业升级过程中必将应用会越来越丰富,为证券公司打造自身核心竞争力,为客户提供更加便捷、安全、贴心的智能金融服务。

参考文献:

[1]阿里巴巴数据技术及产品部.大数据之路阿里巴巴大数据实践[M].北京:电子工业出版社.2017.

[2]国家工业信息安全发展研究中心.大数据优秀产品和应用解决方案案例集(2019)产品及政务卷[M].北京:人民出版社.2019.

[3]李智慧.大数据平台架构.北京:https://zhuanlan.zhihu.com/p/36082771,2017.

[6]美团点评技术团队.美团酒旅起源数据治理平台的建设与实践.北京:https://www.infoq.cn/article/HSh0FSS0RB2NMZ7ZyhSH ,2020.

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。