清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

近年来,随着人工智能技术的飞速发展,大语言模型在自然语言处理领域取得了显著成就。然而,由于其高昂的成本和资源消耗,其商业化应用仍处于早期阶段。相比之下,小语言模型凭借较低的训练成本和较小的计算资源需求等优势,展现出很大的潜力。

基于此,清华大学五道口金融学院财富管理研究中心撰写了《LLM时代小模型的应用潜力与挑战》研究报告(以下简称《报告》)。《报告》通过分析国内外小模型的发展现状与具体案例探讨了小模型的应用潜力与面临的挑战,为我国AI行业发展提供了参考建议。

LLM时代小模型的发展现状

《报告》对小模型(SLM)与大模型(LLM)在多个维度上的差异进行了对比分析,并总结了小模型的优势。《报告》指出,尽管小模型相较于大模型在参数数量上较少,但在特定应用场景下,它们展现出了诸如成本效益、部署灵活性以及快速响应能力等显著优势。因此,小模型在移动设备、智能家居、语音识别等领域具有广泛的应用前景。

《报告》进一步分析了国内外小模型的研发现状及其特点。研究发现,国际大公司如微软、谷歌等主要集中在通用大模型的开发,其开发成本较高,依赖强大的计算能力和丰富的数据资源支持。与此不同,国内企业更多关注于垂直领域的小模型应用,特别是在金融、医疗和教育等行业。这些小模型的开发成本较低、见效快,并且能够灵活适应各行业的具体需求和生态环境。

《报告》还探讨了小模型技术的进展。通过采用LLM剪枝(pruning)和知识蒸馏(knowledge distillation)等技术,研究人员显著提升了小模型的性能。虽然小模型的体积较小,但它们在多语言处理、数学推理等常规任务中的表现同样出色。如今,这些小模型已经能够接近甚至达到大模型的水平。

小模型的应用案例

《报告》介绍了几款国内外具有代表性的小语言模型,探讨它们在特定任务中的表现,展示小模型在实际应用中的潜力。国外以通用小模型为主,例如,微软推出的通用小模型Phi-3-Mini专为低资源、高效率、通用领域的任务而设计。Phi-3-Mini在语言理解和生成中表现出色,能够与GPT-3.5媲美。苹果团队发布的通用小模型OpenELM专为终端设备设计,聚焦隐私保护和数据安全,弥补了以往大规模语言模型(LLM)产品在这些领域的短板。国内以垂直领域小模型为主。例如,浙江大学等研发了智能教学小模型智海·三乐、山东大学等研发了法律咨询小模型夫子·明察、DeepSeek开发了代码智能小模型DeepSeek-Coder-V2-Lite、度小满推出了金融咨询轩辕-6B小模型。

《报告》通过国内外案例比较发现,我国发展小模型具有比较优势。第一,小模型体积虽小,但对具体场景中的优化能力能够超越国外通用模型。第二,小模型综合能力大幅提升,在成本和效率上有明显优势。第三,小模型具有技术创新性。我国具有丰富AI模型的落地场景,以及庞大的用户数据基础。在全球AI竞赛中,发展小模型能够帮助中国有效规避高端芯片和算力资源的制约,通过以灵活、高效、经济的方式,在特定领域快速形成技术优势并实现弯道超车。

小模型面临的挑战及解决方案

《报告》指出,小模型由于其参数较少和网络结构较小,在处理复杂任务时通常面临一定的局限性。一是小模型处理复杂任务能力有限。小语言模型的处理能力受限于其较小的参数量,导致在执行需要深入理解上下文、生成流畅多样的文本或应对复杂语言模式的任务时表现不佳。因此,要适当增加模型的参数量,提升数据质量,通过迁移学习的方式增强小模型的针对性和精度。

二是数据质量依赖性。如果训练数据中存在偏差或不平衡,小模型可能会在特定场景下表现出较低的泛化能力,甚至产生不准确的预测或生成内容。因此,要确保训练数据的质量。一方面,在数据清洗时要进行去噪处理,通过去除重复项、纠正标注错误等方式来提高数据质量。另一方面,要结合外部的知识库,弥补数据中存在的不足,增强模型的泛化能力。

三是小模型使用的局限性。小语言模型通常设计为专门处理特定领域或任务,因此其知识库相对有限,难以应对跨领域的复杂问题。为了解决小模型使用局限性的问题,一是模块化设计,将小模型设计为可扩展的模块系统,可以通过引入专门的插件或外部知识库,扩充其对不同主题的处理能力。二是多模型集成,通过将多个小模型进行集成,形成一个组合型的系统,充分发挥每个模型在特定领域的优势。

小模型的未来发展趋势和建议

在全球AI科技竞赛中,探索合适的发展路径对于超越对手至关重要。美国以大模型为主导的AI发展模式成本高昂,加之其对中国技术出口的限制,包括高端芯片的制裁。在此背景下,资源限制成为中国AI发展的一大挑战。中国发展小而精的模型可以有效规避资源制约,快速实现技术突破。相比耗资巨大的大模型,中国的人工智能产业链已较为完善,创新型企业与高校科研机构众多,为小模型的研发和应用提供了坚实支撑。同时,中国拥有丰富的产业生态与实际应用需求,能够更高效地推动技术普及和产业转型。

中国发展小模型,一是要精准优化与数据赋能打造高效小模型。通过优化提示工程(Prompt Engineering)和高效微调(Fine-Tuning)技术,小模型能够显著提升模型表现力。同时,利用高质量、跨领域的多模态数据,将极大增强小模型的泛化能力与应用场景的多样性,推动其在垂直领域和本地化应用中的广泛落地。二是科技创新与生态建设推动小模型多元化发展。我国要坚持高水平科技自立自强,加速关键核心技术的突破和创新,实现关键核心技术自主可控,打破外部技术封锁和制裁的束缚。同时,要构建开放包容的创新生态系统。扩大国际科技交流与合作,积极融入全球创新网络,深度参与全球科技创新治理,通过吸引国际顶尖人才,为我国AI领域的崛起注入活力。

中国发展小模型,能够有效规避资源和技术限制,发挥我国自身优势,充分释放小模型在垂直场景中的潜力,实现人工智能领域的全面突破和产业升级,增强我国在人工智能领域的全球竞争力。


报告作者

张晓燕   清华大学五道口金融学院副院长、金融学讲席教授

张艺伟  清华大学五道口金融学院财富管理研究中心 研究专员

张远远   清华大学五道口金融学院 博士后研究员

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。