Claude 3全面超越GPT-4?我们上手实测了一波。
2024-04-14 12:34:23 科技资讯 作者:李小二
从纸面实力上看,GPT-4被全面超越了。
就在凌晨,Anthropic发布了船新版本的大模型——Claude3,给OpenAI狠狠将了一军。
他们一口气搞出了三个型号的大模型,俳句(Haiku)、十四行诗(Sonnet)和巨作(Opus)。
而且还反手晒出了成绩单,其中的最强型号Claude3Opus,直接在跑分中屠了一波榜,全方位甩开了GPT-4,一跃成为了最强大模型(至少纸面上是)。
甚至还放出了狠话,说他们在推理、数学、编码、多语言理解和视觉方面,已经树立了新的行业基准。
但在大模型的数量,和火锅毛一样多的2024年,世超觉得只看跑分成绩,肯定不够全面的。
是不是真有两把刷子,还要从其他更专业的维度看看,实际上手体验更是少不了的环节。
于是世超找来了Claude3长达42页的技术报告,在研究的过程中,也上手试了试传说中的Claude3。
先说结论,Claude3是肯定能上擂台和GPT-4争夺最强大模型的名头的,至于能打成啥样,就仁者见仁,智者见智了。
技术报告里的Claude3展示了一波纸面实力,律师考试、数学竞赛等等考试啥的都不在话下,而且好几门成绩是远超GPT-4,官方也说Claude3Opus达到了人类本科生的知识水平。
而世超估计,Anthropic也是料到了大模型圈里的“做题家”和“刷榜哥”太多了,分数的说服力有些不够了。
于是,研究团队又在技术报告里加了一道更人性化的专业实践,找来了金融、法律、医学、哲学等领域的专家,和Claude3进行一对一问答,最后还由专家们给评分。
从结果来看,相较于前面几代的Claude,新模型也是直接突飞猛进。
为了让大伙儿有个更直观的感受,官方还公布了几个例子,让Claude3扮演经济分析师,在开放式的问题面前,它也能给出非常专业的分析结果。
就比如,给Claude3发一张美国过去二十多年的GDP图,让它预测下未来几年美国经济的大致走向。短短几秒,它不仅生成了结果,而且还预测出了好几十种走向。
GPT-4这边就“直截了当”多了,只给出了个增长的预测,变化曲线一点波动都不带。
还有位理论量子学博士,直接让Claude3研究起了自己的博士,它不仅能读懂的内容,还能有理有据地分析。
而相同的提示词喂给GPT-4,全程都没讲到的重点,只是在相关的名词上打转。
这听着怎么有点要端掉科研者饭碗的意思?为了体验下它的专业能力,我们也上手试了试Claude3。
世超先是上传了前几天写的超级光盘原文,让它解释一下原理。不到一分钟时间,Claude3就给出了答案,而且内容也没出啥错,读写数据的原理都给出了,还讲了光盘的结构。
在继续追问多层记录是如何实现后,它也能从光盘材质、刻写技术等方面给出答案。
GPT-4这边呢,也能讲出了大概的原理,不过没Claude3解释得那么详细。
有一说一,Claude3这种专业的分析,完全可以当读的生产力工具了。
在多模态这块,Claude3这次也来了个大升级,像这种字体都有点模糊的古早文件,肉眼识别起来都有点困难。
但世超丢给Claude3,它分分钟就能识别出来,还能尽力去补全每个单词,里面的错误,咱们顺一遍差不多就能改过来。
而GPT-4这边就有点大跌眼镜。把图发给它,它是看到啥生成啥,世超大概扫了一眼,几乎就没几个正确的单词。
世超也给Claude3发了个手写的黑板板书,除了最右边模糊的两个单词外,全都识别出来了。
GPT-4这边,这次做得倒是不差。
另外,Claude对自己“更安全”的模型定位,也是依旧走得比较靠前。
为了确保大模型不乱说话,Anthropic自己起草了一套AI法律不说,还以此为基础,搞了个叫做ConstitutionalAI的训练方法。
被这套方法训练出来的Claude,不会给出有毒、有偏见或者不道德的回答。
为了更安全,他们还搞了个名叫RSP的框架,对模型进行了风险分级,从ASL-1到ASL-4风险依次提升。
他们把阿尔法狗这种只会单一技能的AI,划定为没风险的ASL-1。
而现在的大模型包括Claude,都被列在第二档里,属于是“会无意识生成危险内容”那一挂。
ASL-3档往上,就都是会产生自主意识的AI了。
反正在给AI划了这四个风险档位之后,他们就给模型上了一连串安全防护措施,但凡有害提示一露头马上就被秒。
可以说,相比于GPT-4的奶奶漏洞还有谷歌Gemini的政治正确,Claude算是一个非常洁身自好的AI了。
但问题在于,这种安全都是以模型装傻充愣为前提的。
上一代Claude2.1发布的时候,就因为过于注重安全合规经常拒绝回答用户的问题,比如甩过去一个文档,它会以版权为由拒绝帮你总结。
让它停止一个正在运行的程序也干不了,就因为用了“kill”这个词。
因为这个,当时被不少外国网友吐槽“Claude已经死了”。
但好在,新一代的Claude3既兼顾了安全性,又提高了对有害提示的识别率,一刀切的情况少了很多。
我们让Claude3写了一段孤儿偷面包的小说情节,抛开文笔不谈,至少它愿意给你生成内容了。
这要放之前,Claude2.1会以这种情节鼓励儿童犯罪为理由,把你给拒了。
从Claude3的这一波实测来看,咱也不说它能全面超过GPT-4,但至少相对于上一代的Claude2.1,体验不知道是提升了多少。
之前按照外媒爆出来的瓜,ChatGPT就是OpenAI为了截胡Claude,才急忙整出来的。
现在Claude3都快踩在GPT-4头上了,奥特曼还能忍?(打起来打起来)
世超也好奇被Claude3这么一波“催更”,OpenAI啥时候能把GPT-4.5或者GPT-5拉出来溜溜啊?