图片源头@视觉中国
文 | 三言Pro
明天 ,笔者分心中刷到一张图片。多前
据该图片展现 ,排名OpenAI的垫底GPT-4在11个大模子中(第一位序号为0) ,已经排到了最后 。半年尚有网友配上了“GPT4:我的多前委曲奈何样诉 ?”的字样。
这不禁让人好奇 ,排名往年年初 ,垫底ChatGPT爆火之后,半年其余公司才开始提大模子的多前意见。
这才半年多,排名GPT就已经“垫底”了?
于是垫底,笔者想看看GPT排名事实咋样了。半年
测试光阴差距,多前测试团队差距,GPT-4排第十一
曩昔文中图片上展现的信息来看,这个排名是出自C-Eval榜单 。
C-Eval榜单,全称C-Eval全天下大模子综合性魔难测试榜 ,是由清华大学、上海交通大学以及爱丁堡大学相助构建的中口语语模子综合性魔难评估套件。
据悉,该套件拆穿困绕人文、社科 、理工、其余业余四个悭吝向,搜罗52个学科,涵盖微积分、线性代数等多个知识规模 。共有13948道中文知识以及推理型问题,难度分为中学 、本科 、钻研生、职业等四个魔难级别。
于是笔者魔难了最新的C-Eval榜单。
C-Eval榜单的最新排名与前文中图片所展现的排名适宜 ,排名前十一的大模子中,GPT-4排最后 。
据C-Eval榜单介绍,这些服从代表zero-shot(零样本学习)概况few-shot(少样本学习)测试,但few-shot不用定比zero-shot下场好。
C-Eval展现 ,在其测试中发现良多经由指令微调之后的模子在zero-shot下更好。其测试的良多模子同时有zero-shot以及few-shot的服从,排行榜中展现了总平均分更好的那个配置 。
C-Eval榜单还注明了,大模子名字中带“*”的,展现该模子服从由C-Eval团队测试患上到,而其余服从是经由用户提交取患上。
此外,笔者还留意到,这些大模子提交测试服从的光阴有很大差距 。
GPT-4的测试服从提交光阴是5月15日,而位居榜首的云天书 ,提交光阴为8月31日;排第二的Galaxy提交光阴为8月23日;排第三的YaYi提交光阴为9月4日 。
而且,排名前16的这些大模子,惟独GPT-4的名字加了“*” ,是由C-Eval团队测试的