DeepSeek之后，金融大模型将迎哪些变化？

ze3个月前 (02-12)金融253

界面新闻记者 | 何柳颖
界面新闻编辑 | 王姝

DeepSeek热潮正快速蔓延。

金融机构中，券商动作最为迅速。目前国泰君安、国金证券、广发证券、华安证券等多家券商均表示已完成本地化部署。

银行方面，江苏银行率先宣布已部署Deepseek，该行称，依托“智慧小苏”大语言模型服务平台，成功本地化部署微调DeepSeek-VL2多模态模型、轻量DeepSeek-R1推理模型，分别运用于智能合同质检和自动化估值对账场景中。

苏商银行方面表示，2024年，在国产大模型兴起之初，苏商银行积极关注并先后引入DeepSeek系列技术，结合原有大模型技术能力，在模型轻量化与高效推理方面取得显著突破，并大幅降低了算力消耗。

整体而言，目前正式官宣接入、应用Deepseek的银行不算多，不过有银行人士告诉界面新闻记者，“已在行内部署DeepSeek大模型”。

无论快慢，Deepseek带来的“低成本、高性能”路线显然已为金融机构的大模型布局带来了新的思考。另一方面，这一路线是否有望缩小金融机构之间的大模型技术鸿沟？

大大降低深度思考模型的应用门槛

桂林银行方面告诉界面新闻记者，该行已在行内部署Deepseek大模型，计划结合各业务条线将其用于业务知识问答助手、客服助手、培训助手、培训对练、智能出题等场景，拓展大模型技术在金融服务场景的应用，赋能金融服务高质量发展。

另有股份行人士告诉界面新闻记者，“目前还在研究中，没那么快落地”。

“DeepSeek-R1的优势可以用‘更聪明、更便宜、更开放’来概括。更聪明在于自主学习能力更强，能够通过自动推理得出正确的结果；更便宜在于借助算法优势，可以占用更少的算力资源，以更低的成本完成同样的任务；更开放在于其选择了开源，允许任何人免费试用和改进算法。”中国科学院科技战略咨询研究院研究中心副主任周城雄向界面新闻记者表示。

“2023年OpenAI推出O1系列模型时，强大的推理思考能力为很多复杂场景的深入应用带来了可能；而此次DeepSeek-R1系列模型开源，不仅带来了完整好用的COT（思维链推理）能力，同时其通过大模型蒸馏小模型的实践方式也大大降低了深度思考模型的应用门槛。”招联消费首席信息官王耀南告诉界面新闻记者。

王耀南表示，DeepSeek-R1模型的开源带来了更多应用机会，对于招联消费的大模型应用策略来说，强化的深度思考能力可以大大拓宽智能体的应用范围。

比如，“在风险管理领域，深度思考能力可以让智能体应用完全结合宏观、微观经济运行情况，详细、完整地评估客户的风险水平；在服务与营销领域，通过对客户信息及过往服务交互记录的深入分析，我们可以通过AI技术为每个客户打造专属客户经理。”王耀南介绍。

帮助搭建金融大模型

根据周城雄的观察，目前金融机构大模型研发路径主要有以下三类：一是利用已经开源的模型进行处理，二是聚焦金融场景针对性地开发小模型，三是直接采购服务商的AI服务。

从受访金融机构的情况看，第一种方式更为普遍。王耀南介绍，招联主要基于一系列开源的基座大模型（包括llama、qwen等），结合招联对于业务的深入洞察和数据积累，通过强化学习、SFT微调等方式打造并开源了两代智鹿大模型，在此基础上构建了包括消保智能体、审批智能体、运营智能体等一系列智能体应用。

桂林银行方面亦告诉界面新闻记者，该行大模型研发与应用主要通过引入开源的通义千问大模型结合采购行业垂直领域大模型，构建大模型中台，集中统一管理大模型资源，目前已上线30余个大模型应用。

目前DeepSeek-R1已开源，这不仅意味着各大金融机构多了一个成本更低的开源模型选择，更重要的是，DeepSeek正搅动起一轮闭源开源之争，这实际上有助于推动人工智能的整体开发和应用进程。

从应用层面划分，大模型大致可以分为两类，一类是通用大模型，另一类是垂类大模型。在知识门槛技术较高的金融领域，业内普遍认为垂类大模型的性能匹配度会更高。

BloombergGPT是垂类大模型的典型之一。2023年3月30日，Bloomberg（彭博）正式发布金融行业大模型BloombergGPT，该机构彼时表示，基于LLM（Large language Model，大型语言模型）的人工智能最新进展已经为许多领域展示了令人兴奋的新应用，然而，金融领域的复杂性和独特术语需要特定领域的模型。

据官方介绍，彭博的数据分析师在四十年时间里收集并维护了金融语言文件，该团队从庞大的金融数据档案中提取数据，创建了一个由英文金融文档组成的全面的3630亿个token数据集。然后使用3450亿个token的公共数据进行扩充，从而创建了一个包含超过7000亿个token的大型训练语料库。

该模型将帮助彭博改进现有的金融NLP（Natural Language Processing,自然语言处理）任务，例如情绪分析、实体识别、新闻分类和问答等。

招商银行信息技术部副总经理俞吴杰亦曾表示，招行重点不在搭建通用模型，而是搭建金融行业的领域模型。

俞吴杰表示，招商银行不会在通用大语言模型上花费更多精力，因为通用大语言模型在银行业的运用有其弱点——对专业知识理解有限，在专业领域数据处理能力较弱。囿于此，招行会在比较好的通用模型基础之上，将足够的专业领域知识给到大模型，“最起码是银行业，未来还可能扩展到证券、保险等与银行关联性大的行业”。

如何“喂料”是其中的关键问题之一，而Deepseek-R1有望在这方面帮助银行“提质增效”。

“Deepseek-R1是通用大模型，知识量很广，包括信贷业务等金融领域的知识，这可以作为语料支持。将金融内部数据与外部数据结合优化，亦可以降低训练成本。”周城雄表示。

“大模型对于业务模式的重构是一个循序渐进的过程，R1深度思考模式的引入，不仅有利于复杂推理场景下的AI技术应用；同时也可以作为招联自研模型‘自构建数据’的引擎，结合足够多且高质量的数据，带来更优异的推理效果。”王耀南亦强调。