九章云极DataCanvas：助力某银行构建开源算法平台

扫描分享

本文共字，预计阅读时间。

案例名称

九章云极DataCanvas助力某银行构建开源算法平台

案例简介

在实现金融科技智能化战略的过程中，某银行构建了各类AI能力，如NLP、OCR、语音识别等，但也随之出现了一些问题，包括：平台算法黑盒、基础算力资源管理分散、缺少统一的模型部署管理平台来纳管异构模型。在本项目中，基于开源组件和白盒算子库搭建企业级开源算法开发平台。为全行分析及建模人员提供“练兵场”，为自研、创新提供孵化环境，支持多种常用的开源框架模型的统一纳管和发布。基于行内k8s部署平台，将训练环境和预估环境隔离，实现计算资源统一管理、GPU/CPU的统一调度，同时实现了AI应用的统一监控。

创新技术/模式应用

搭建开源算法平台：开源算法是银行数字化转型的重要工具，可以提高技术创新能力，降低研发成本，提高数据处理和分析能力，增强自主可控能力。但是开源算法在使用中会碰到很多问题，例如算法质量问题，由于开源算法的开放性，任何人都可以对其进行修改和补充，因此算法的质量参差不齐，有些可能存在缺陷或漏洞；维护和更新问题，开源算法的代码是公开的，但是银行在使用过程中仍然需要进行一定的维护和更新，这需要一定的技术支持和人力成本。本次项目，通过搭建开源算法平台，使得银行更加安全、高效地使用开源算法。开源算法平台提供的主要能力有：

统一的开源算法库

银行需要根据实际业务需求选择适用的开源算法，需要考虑算法的性能、可扩展性、开发难度、文档资料丰富程度等因素，平台根据行方的应用场景需求，对现在比较成熟和广泛使用的算法框架，例如Scikit-learn、TensorFlow、Keras、PyTorch等进行了二次开发和优化，实现了不同框架算法的统一纳管和发布，使得行方的调用更加高效。

开源算法统一调度

平台实现了多算法框架的统一编排调度，解决了不同算法框架的接口兼容、分布式计算、资源管理和运行环境等多个方面的问题，实现了内存、GPU、CPU等计算资源的统一管理和调度，实现更加高效和准确的数据分析和机器学习。

自动化测试和部署

模型的测试和部署是制约应用场景落地的重要因素，平台实现了开源算法模型的自动化测试和部署，集成测试框架，能够实现模型的快速验证；使用容器化技术，将模型文件和依赖自动打包成一个镜像，实现自动部署，并持续监控与优化，能够跟踪算法模型的精度、速度和可靠性等指标，使得建模人员能够根据监控数据进行调整和优化。

项目效果评估

银行业务需要大量的数据分析和机器学习来实现风险控制、客户营销、业务决策等目标。通过使用开源算法平台，银行可以实现多算法框架的统一编排调度，从而提高数据分析和机器学习的效率，减少冗余工作和人工错误，提高数据分析和机器学习的准确性。在项目期间，平台快速响应各业务的创新需求，实现了各种业务场景：

邻近网点识别

为进一步提升客户服务体验，需根据客户已留存的地址数据信息，实现对于每位客户与其最近网点之间的匹配，并将结果落实成数据标签。后续通过数据应用为客户提供更为贴心的网点服务及更加精准的产品营销，从而提升客户网点到店率及交易活跃度。

数据自动化对标

对数据管理系统中数据标准对标管理流程优化，通过NLP技术辅助业务在数管系统中进行数据对标，减轻业务对标工作量。

事件知识库

目前数据中心的知识库主要以手册形式，包括故障处理手册、系统排查手册等。但随着行方业务的持续增长，以及信息系统的持续上线，以手册保存数据中心知识的形式已不满足当下的需求。行方急需建设一个轻流程的通过事件自动获取知识的能力，通过NLP模型自动获取有效的知识，并通过评价体系来实现知识的更新迭代，持续的提升数据中心知识库建设的能力。

信用卡智能批额

通过接入客户的内外部数据，例如客户的个人信息、历史信用卡使用记录、个人财务状况、征信数据等，构建信用卡额度智能决策模型，实现信用卡额度的自动审批，在符合风控要求的基础上，提高用户体验。

开源算法平台全面赋能行内的智能化场景，通过开源算法平台，行方降低开源算法的使用运维成本、提高创新能力、增强灵活性和可定制性、提高安全性和可靠性，同时也促进了合作与共享，推进了银行金融科技智能化战略的进程。

项目牵头人

王申银行BU总经理

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。