趋势1:self-playRL范式开启,大模型技术军备赛进入复杂推理阶段
由0penAI发布的GPT3作为序幕,大语言模型理解和生成能力、通用和泛化能力提升等引爆了对于AGI发展的高预期,大量大模型涌现,开源模型与闭源模型并驾齐驱,国内大模型也在奋起直追,人工智能的发展从分析式AI进入生成式AI时代。
通过易观分析AI开发者调研结果来看,0penAIGPT系列大模型以42.9%的使用率位居首位,同为海外的MetaLLaMa系列大模型以27.1%的比例位居第三位。中国的大模型企业,阿里通义大模型以37.8%的使用率位居第二。
总体上而言,AI开发者在模型层的选型仍然处于变动的状态,且尚未形成相对比较明确的竞争格局。而0penAI发布o1(草莓)模型,则再次定义大语言模型的技术方向与竞争焦点,
趋势2:多模态模型能力持续升级,朝向多模态理解和生成的统一发展
当前自然语言、音频、视频等多个模态的理解与生成能力均提升显著,在模型创新、跨模态能力提升、性能优化上有进展,并涌现出不少基于多模态模型的应用和探索。
研究机构和企业不断推出性能强大的多模态模型,例如智源人工智能研究院Emu3,是全球首个原生多模态世界模型,通过自回归技术结合图像、文本和视频三种模态,在图像生成、视觉语言理解和生成方面表现出色。
训练方式不断创新,例如新的联合训练策略,即在训练过程中先固定大语言模型的权重参数,对图像编码器和桥接组件进行初步训练,然后再对整个模型进行整体训练,这种分阶段的训练方式有助于提高模型的性能和效率。
趋势3:Agent向超级智能体进化,具备更强的学习和推理能力,处理更复杂的任务
Agent正凭借一系列关键技术进展,如深度学习、强化学习、自然语言处理技术的突破以及多模态融合等方面的发展,逐步向具备更强学习和推理能力、能处理更复杂任务的超级智能体进化。