近日,国内量化私募念空科技向国际顶会NIPS(Neural Information Processing Systems,神经信息处理系统大会)投递了与上海交大计算机学院合作的大模型研究论文。5月20日,该投递论文网址链接公布。
业内人士认为,此举显示了中国金融科技不止于应用落地,还具备一定的底层创新能力。
在同等训练量下,帮助大模型变得更聪明
资料显示,成立于2015年的念空科技,是市场上较早将人工智能(AI)应用于金融领域的量化私募,其机器学习应用覆盖期货、股票等。2019年,公司几乎全部转向神经网络算法,2020年起,公司在此基础上搭建全流程投研平台,次年管理规模突破百亿元。
2023年,OpenAI的ChatGPT横空出世。在念空科技创始人王啸看来,大模型的出现为量化行业提供了一个全新的算法工具,但ChatGPT使用成本较高、使用权限较低,很难进行大规模训练。
今年,DeepSeek因其开源的特征打破多种限制,实现“智能平权”,同时让世人看到强化学习对大模型的推理能力至关重要。
念空科技所递交的念空大模型论文的突破性成果在于,从人类的学习方法的经验得到启发,如果高频的在少量刷题和小测试经验总结之间切换,可能更有利于学习成绩(推理能力)的提高,设计了一种step by step切换监督微调(sft)和强化学习(rl)的训练方法。
最终实验发现,在三个不同的公开数据集上,念空科技提出的新的训练框架明显优于单独的sft、单独的rl以及简单混合sft和rl,证明提出的新的框架是当下更优的后训练方式。通俗的说,念空的研究成果可以帮助大模型在同等训练量下变得更聪明。
设立全资公司探索AI技术边界
与一般的金融机构招聘不同,量化投资的门槛往往较高,通常是数学、统计学、金融学、计算机技术的结合,通过挖掘海量数据,寻找规律,做出预测,并使用这个规律进行自动的计算和决策,需要克服人性弱点。
据了解,对于核心人才的选择,念空科技更愿意从零开始培养,公司团队70%—80%的AI工程师都是从高校实习生或是应届生招进来,在几个月的时间里,他们会使用公司的体系、规则,公司逐步就能判断这个人是否适合念空科技。
值得一提的是,为了具体问题的技术研究和模型优化,王啸在2025年成立了上海全频思维人工智能科技有限公司(AllMind),专注于研究通用大语言模型(LLM)相关底层算法和工程技术。
据介绍,AllMind着眼于大模型的基础学术研究和应用,短期内并不以盈利为目的。与念空科技主攻金融垂直场景不同,AllMind的定位为高质量CoT数据生产方向的学术探索,主要研究方向为大模型底层技术研究和不限于金融场景的垂直应用。