5月15日,国内知名百亿级量化私募念空科技向国际顶级学术会议NIPS(Neural Information Processing Systems,神经信息处理系统大会)投递了其与上海交通大学计算机学院合作的大模型研究论文。5月20日,该投递论文网址链接公布(https://arxiv.org/abs/2505.13026)。
业内人士表示,念空科技联合国内高校向NIPS投递AI基础研究论文,显示出中国金融科技不止于应用落地,还具备一定底层创新能力。
念空科技向NIPS投递的论文 来源:网站截图
实证研究“更高效的大模型训练方式”
念空科技成立于2015年,是市场上较早将AI应用于金融领域的头部量化私募。其机器学习应用覆盖期货、股票等多类金融数据,经过多年技术迭代,公司自2019年起全面转向神经网络算法,并于2020年搭建全流程投研平台。2021年,公司管理规模突破100亿元。
2023年,OpenAI的ChatGPT的出现,为量化行业提供了全新算法工具。不过,念空科技创始人王啸结合近两年的相关研究及实践发现,ChatGPT存在使用成本高、权限受限等问题,难以支撑AI大模型的大规模训练。而DeepSeek的开源特性打破这一限制,通过监督微调(SFT)与强化学习(RL)交替训练的方式,验证了强化学习对大模型推理能力的重要性。
受人类学习中“高频切换刷题与测试总结”启发,念空科技提出一种自适应切换SFT与RL的训练框架。具体而言,模型在每一步训练前,通过自适应算法动态选择下一阶段采用SFT还是RL。其联合上海交通大学计算机学院开展的长期深度实验数据显示,在三个公开数据集上,该框架的表现显著优于单一使用SFT、RL或简单混合两者的传统方法。这一成果证明,新框架能够在同等训练量下提升模型的“聪明度”,有助于提升训练效率。
念空大模型论文中的研究图片 来源:念空科技
业内人士分析,这一研究成果不仅体现了念空科技对AI算法的深刻理解,更展现了中国头部量化机构在AI底层技术研究上的潜力。
成立专门AI企业不断探索技术边界
王啸在接受中国证券报记者采访时表示,为深入探索大模型技术边界,其于2025年成立全资子公司AllMind(上海全频思维人工智能科技有限公司)。与念空科技聚焦金融场景不同,AllMind定位于通用大语言模型(LLM)的底层算法与工程技术研究,致力于高质量CoT(Chain-of-Thought)数据生产,并探索不限于金融领域的垂直应用。
从分工方面看,念空科技与AllMind明确了两者各自在AI技术上应用与研究的“双轮驱动”发展模式。念空科技作为盈利性量化私募,主攻金融垂直场景的AI模型应用,依托全流程投研平台优化投资决策。AllMind在短期内不以盈利为目标,专注于基础学术研究,旨在通过底层技术突破辐射更多行业,为业务拓展提供技术支撑。两者虽同属一个生态体系,但定位清晰、分工互补。
量化行业可做出更大贡献
量化行业长期以来被视为AI技术的应用者和“大模型孵化器”,业内人士表示,此次念空科技向NIPS投递论文,表明许多在IT硬件、AI基础硬件上有大规模投入的头部量化机构,能够实现从“工具使用者”到“创新贡献者”的跃迁,其积极意义涵盖三个方面。
第一,深化技术理解,推动垂直领域应用。对大模型底层算法的研究,是开发金融、医疗、新材料等各领域专用模型的基础。
第二,突破行业定位,赋能AI大模型生态。当前量化行业底层创新性研究仍显不足,通过研究突破,念空科技为全球AI团队提供了可参考的发展案例。
第三,产学研协同,加速前沿AI技术研究。念空科技与上海交大计算机学院的合作,作为产学研协同创新的典型案例,为解决资源割裂问题、推动AI技术从实验室走向产业提供了示范。
量化行业人士表示,量化行业的“高门槛”(需融合数学、统计、计算机等学科)与严谨的投研体系,能够为其技术研发和创新提供支撑。以念空科技为例,通过内部体系筛选与打磨,着力打造一支兼具学术素养与工程能力的团队。
分析人士表示,更多量化团队加入AI领域的基础研究,将为中国AI领域的技术研发带来一定助推作用。不过,相关挑战也依然存在。例如,需要长期资金支持,论文研究也需经历复杂场景的实践检验,人才留存与创新能力需持续投入等。
不过,念空科技的尝试提供了一定的借鉴,即以自身的资源禀赋为出发点,从AI技术的“应用者”,逐步成为AI前沿创新技术的“开创性研究者”。