Forfunds Logo 首页>正文

“复刻”幻方量化打造Deepseek 量化私募基金念空在大模型底层技术研发取得突破

经济观察网 | 2025-06-03 14:58:37

  5月以来,全球大模型研发公司在大模型语义理解、多模态等方面的“较劲”悄然升级。

  中国深度求索(DeepSeek)公司表示,DeepSeek R1模型已完成小版本升级,令大模型的思维深度与推理能力显著提升。

  与此同时,美国Anthropic公司推出“克劳德4”系列两款新模型,为业界提供更高标准的编程、推理和智能体应用。

  面对大模型在推理能力、思维深度方面的较量日益“白热化”,国内量化私募基金也加入“角逐”,在AI大模型底层技术研发方面也取得突破。

  国内量化私募基金念空科技与上海交通大学计算机学院开展合作,提出一种全新的大模型训练框架(SASR),并发表论文投向全球顶级人工智能会议期刊NIPS。

  念空科技创始人王啸在6月3日接受本报记者专访时表示,这项全新的大模型训练框架(SASR),在GSM8K任务中,在仅使用1.5B模型的情况下,准确率就超过了80%,接近GPT-4o的表现;而在KK逻辑推理任务中,其准确率比GPT-4o还高出约9个百分点。SASR让通用大模型变得更“聪明”。

  他告诉记者,当前大模型技术的训练框架,主要围绕监督微调(SFT)和强化学习(RL),所谓监督微调(SFT)就是不断给大模型输入资料和案例进行监督训练,相当于“刷题”; 强化学习(RL)则侧重强化大模型的逻辑推理能力,让大模型更准确理解用户需求,“生成”用户所需的答案。但是,如何进一步优化大模型的刷题效果与逻辑推理能力的比重,正成为大模型能否更加“聪明”的一大挑战。

  “我们期待这个全新的大模型训练框架,能够解决这项挑战,让大模型在不增加数据量的情况下,通过优化SFT和RL的关系,也能达到预期的聪明效果。”王啸向记者指出。

  这项全新的训练框架能否让大模型更加“聪明”,仍需专业机构的评估与认证。

  王啸对此信心十足。

  他向记者透露,念空科技已将这项训练框架应用在量化投资策略研发领域,并发现相比以往的AI应用,它带来两大新变化,一是基于这项新训练框架的大模型在市场预测准确性方面已达到传统量化投资模型的约80%,随着新训练框架下的大模型日益“聪明”,其预测准确性有望超过传统量化投资模型;二是新训练框架下的大模型与传统量化投资模型的相关性低于50%,这意味着两者有较高带来1+1大于2的效果,提升整个量化投资策略的成效。

  多位量化私募业内人士向记者透露,随着AI大模型迭代升级,如今量化私募基金对AI大模型底层技术的研发布局,日益侧重算法优化。在这个过程,产学研的结合将是他们在大模型底层技术研发方面取得突破的“捷径”。毕竟,大学研究机构具有先进的大模型算法优化理论基础与科研能力,但缺乏更多的算力支持与工程能力,而这些短板恰恰是量化私募基金的“强项”,两者可以形成“互补”,助力国内大模型变得更“聪明”,在全球AI发展格局拥有更大的话语权。

  算法优化与训练架构创新 量化私募开启大模型研发“新征途”

  幻方量化推出Deepseek,激发越来越多量化私募基金掀起大模型底层技术研发浪潮。

  今年以来,多家量化私募基金纷纷设立AI Lab,专注大模型底层技术的研发。

  在业内人士看来,量化私募基金要“再造”一个Deepseek,难度相当高。具体而言,一是通用大模型的研发需要大量资金、算力、数据训练、算法研究的投入,未必是每家量化私募基金都能负担得起,二是随着通用大模型市场格局初步清晰,新生的通用大模型“脱颖而出”正面临更多挑战。因此,越来越多量化私募基金将目光瞄准通用大模型的算法优化,助力国内通用大模型变得“聪明”,令后者各项性能“赶超”海外知名的通用大模型。

  王啸向记者透露,近年,通用大模型的算法优化,正成为提升大模型整体能力的重要突破口。2023年ChatGPT的面世,主要基于庞大数据的预训练与监督微调(SFT),年初Deepseek的强势崛起,则让市场意识到强化学习(RL)对提升大模型逻辑推理能力显得至关重要。如今,越来越多AI公司对通用大模型的训练方式升级与算法优化,都采取SFT+RL模式,比如Deepseek的论文介绍其训练过程分成SFT-RL-SFT-RL四个过程。

  “问题是固化的SFT+RL训练模式未必能让大模型聪明度快速提升。”他告诉记者。若大模型的训练模式过度侧重SFT,其结果是大模型刷了很多题,但缺乏思考与总结,聪明度提升存在天花板;反之过度侧重RL,其结果是大模型尽管擅于思考总结,但缺乏大量刷题所积累的基础知识,令幻觉问题难以明显缓解。”他告诉记者。因此现有的通用大模型所构建的监督微调(SFT)与强化学习(RL)训练框架,面临数据精准拟合与高质量思维链(CoT)的高度依赖、以及训练不稳定等方面的限制。为了解决这些影响大模型“聪明度”的掣肘,念空科技与交通大学计算机学院合作提出了一个新框架,即一个自适应的混合训练框架,在算法优化过程能动态平衡SFT与RL。比如新训练框架在使用SFT时,在预热阶段建立基本推理能力;在后续训练阶段又能自主切换SFT与GRPO算法混合训练,通过梯度范数调整训练概率,确保训练方案之间的平滑过渡,在探索不同路径同时保持大模型的良好逻辑推理能力。

  通俗而言,在这个全新的训练框架下,大模型会自主设定一个动态的评估体系,根据数据训练环节的监督微调(SFT,刷题)效果,自主决定下一步是继续“刷题”,还是切换成思考总结(强化学习,RL)从而通过动态调整监督微调(SFT)与强化学习(RL)的步骤与切换节奏,达到更好的训练效果,让大模型自己变得更“聪明”。

  今年,王啸创立上海全频思维人工智能科技有限公司AllMind,主营业务是专注研究通用大语言模型(LLM)的相关底层算法和工程技术。AllMind的一项重要工作,是与交通大学计算机学院合作,创建这项全新的通用大模型训练框架。

  王啸坦言,在创建这项大模型全新训练框架过程,他们也走了一些弯路,包括技术路线的调整与研究方向的优化。最终,双方在不懈努力下,设计了一种step by step的训练方法,在下一个step训练前,通用大模型可以根据所设计的自适应算法,决定下一个step使用SFT还是RL,从而达到更好的训练效果。目前,通过在GSM8K、MATH和KK三个公开数据集的实验表明,这项新训练框架的性能优于单独SFT、单独RL、以及简单混合的SFT+RL训练方法。

  在业内人士看来,训练框架创新与算法优化,正成为通用大模型比拼综合性能的重要突破口。如今,越来越多“聪明度更高”的通用大模型正呈现一个新特征,即他们的参数量未必很高,但综合能力不亚于同行。这背后,是训练框架创新与算法优化,令通用大模型在同等数据、算力的情况下具有更出色的训练效果。

  “当前能在算法优化与训练框架创新方面取得突破的量化私募基金并不多,原因是这需要产学研的融合发展,一方面需要高校研究机构提供理论基础与科研能力,另一方面需要量化私募基金充分应用自身的AI应用经验与工程能力,以及提供足够的算力支持,两者缺一不可。”一位量化私募基金人士向记者直言。

  王啸告诉记者,AllMind很大程度得益于产学研的融合发展,创建全新的大模型训练框架。

  “AllMind将着眼于通用大模型的基础学术研究与应用,不以盈利为目的。我们将推动这项训练框架持续迭代,进一步提升通用大模型的逻辑推理能力与减少幻觉问题,让大模型变得更聪明同时,为国内大模型在全球AI格局赢得更大的话语权。”他指出。

  让大模型在各个垂直领域“都聪明” 量化私募如何破题

  记者多方了解到,训练框架创新与算法优化能否令通用大模型变得“更聪明”,并不是实验室“说了算”,还需“实践出真知”。

  王啸对此向记者表示,所有垂直领域的大模型训练核心框架是趋同的,都需要高质量的Prompt与CoT数据,在先做监督微调(SFT)的基础上,让大模型获得某个垂直领域的基本认知后,再进行强化学习(RL),进而找到一个正确且高效的数据训练模式,让大模型变得越来越“聪明”,能自动生成这个垂直领域的各种准确“答案”。因此,AllMind的发展步骤,是强化通用大模型训练算法优化与工程技术研究,以及高质量CoT数据生产方向的学术探索,增强通用大模型在金融场景的垂直应用,若这项工作取得良好成效,就有底气将这套全新的训练核心框架与训练模式输出给新材料、医药研发等垂直领域,让更多垂直领域的大模型都变得“更聪明”。

  他透露,念空科技正通过新训练框架下的大模型,研发新的量化投资预测模型。具体而言,传统的量化私募基金使用AI技术所搭建的量化投资模型,主要是针对以往股市交易数据等因素进行拟合与归纳总结,从而预测未来并寻找投资获利机会。比如一种传统的AI量化投资模型会将过去数年的股市基础数据与一些特征,通过机器学习与深度学习算法进行训练,让模型对过去数年的股市波动规律进行总结归纳,从而预测未来并挖掘相应的投资获利机会,这本质是基于统计驱动的量化投资模型,如今,他们正通过新训练框架下的AI大模型进行预测,找到一种通过逻辑驱动的、全新的量化投资模型构建思路。

  “目前,基于这项全新训练框架的大模型在市场预测准确性方面达到传统量化投资模型的约80%,而且其与传统量化投资模型的相关性低于50%,有望带来1+1大于2的效果,可以给现有传统的量化投资模型提升投资准确性带来有益的补充。”他告诉记者。这令他开始相信这项全新训练框架有望令大模型在其他垂直领域应用方面同样能取得一系列成绩。

  记者多方了解到,历经训练框架创新与算法优化的大模型能否在其他垂直领域同样“变得聪明”,面临的变数相当多。比如在数据量极其庞大与复杂的互联网行业,大模型需要连接尽可能多的GPU与服务器进行高效的大规模数据训练,因此算法与工程能力的挑战或远远超过金融领域。

  多位量化私募业内人士指出,这正成为不少量化私募基金探索大模型算法优化方面的新方向。为此他们也在与高校科研机构合作,将理论基础与自身在大模型的算法与工程技术运用经验进行结合,找到更优的算法与训练框架。

  王啸告诉记者,金融大模型的难点,在于如何在过拟合与欠拟合之间找到最理想的平衡点。短期内,AllMind正着手解决这项挑战。长期而言,念空科技希望能赋能大模型在更多垂直领域都变得更加聪明,推动中国大模型行业发展,增强中国大模型在未来全球AI格局的竞争力。