新闻资讯
NEWS

新闻资讯

最专业的美发工作室,让您的美丽从头开始

xk星空体育SuperCLUE发布大模型测评报告:Baichuan 3通用能力评测国内第一

时间:2024-04-30 15:49:52

  4月30日消息,机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取了国内外32个大模型的4月份版本进行综合性测评。包括开放主观问题的测评,星空体育手机版模拟大模型应用场景,以及多轮对话场景的考察。

  SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用,构建了综合性测评标准xk星空体育,星空体育手机版其前身是CLUE。本次测评涵盖了逻辑推理、代码、语言理解等十大基础任务,共2194道题,以便更真实反映大模型的通用能力。

  报告中显示,Baichuan 3在国内大模型中排名第一,总分73.32分,超越了文心一言4.0、通义千问2.1等大模型。此外,Baichuan 3在知识百科能力上以82分的成绩超越GPT-4-Turbo,在32个国内外大模型中排名第一。

  测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在32个国内外大模型中排名第一。在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,在国内大模型中也拔得头筹。在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。

Copyright © 2012-2024 上海方锐云网络科技有限公司 版权所有 Powered by EyouCms 备案号:沪ICP备2023013812号-2