2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024-12-07 其它报告 0 0 1

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。

大致可以分为四个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）、繁荣期（更多模态能力的延伸和应用）。

OpenAI发布o1后，全球大模型竞争加剧

o1-preview的推出进一步拉大了与其他模型的差距。经测评，目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力，但与o1-preview在中文难任务（Hard任务）上相差约为14%，在中文通用能力上相差约8%。

国内大模型第一梯队竞争激烈，持续迭代表现不俗

国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型，最新发布的TeleChat2-35B同样表现出色，超过了国内外众多开源模型；国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异，与ChatGPT-4o-latest相距2分以内。

国内外大模型在不同任务上表现各有优势

国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越，有较大领先性，国内大模型则更擅长理科和文科任务。

端侧小模型表现惊艳

国内端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，如Qwen2.5-1.5B-Instruct、MiniCPM3-4B，均展现出很高的性价比和落地可行性。

国内外大模型发展趋势

2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版

本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期，其中Top1的模型经历了10次易主，不断提升国内模型的最强战力。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%。随着o1的发布，差距再次拉大到8.19%。

报告获取：公众号『报告智库』回复数字“1”

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

2024年中文大模型基准测评报告，国内大模型关键进展及趋势分析

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。