自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。

大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)。

OpenAI发布o1后,全球大模型竞争加剧

o1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力,但与o1-preview在中文难任务(Hard任务)上相差约为14%,在中文通用能力上相差约8%。

国内大模型第一梯队竞争激烈,持续迭代表现不俗

国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型,最新发布的TeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。

国内外大模型在不同任务上表现各有优势

国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大领先性,国内大模型则更擅长理科和文科任务。

端侧小模型表现惊艳

国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-1.5B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。

国内外大模型发展趋势

2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版

本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期,其中Top1的模型经历了10次易主,不断提升国内模型的最强战力。

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。随着o1的发布,差距再次拉大到8.19%。

报告获取:公众号『报告智库』回复数字“1”

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告,国内大模型关键进展及趋势分析

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。