首页 > 科技资讯 > > OpenAI

Claude 3全面超越GPT-4？我们上手实测了一波。

2024-04-14 12:34:23 科技资讯作者：李小二

智能推荐中...

从纸面实力上看，GPT-4被全面超越了。

就在凌晨，Anthropic发布了船新版本的大模型——Claude3，给OpenAI狠狠将了一军。

他们一口气搞出了三个型号的大模型，俳句（Haiku）、十四行诗（Sonnet）和巨作（Opus）。

而且还反手晒出了成绩单，其中的最强型号Claude3Opus，直接在跑分中屠了一波榜，全方位甩开了GPT-4，一跃成为了最强大模型（至少纸面上是）。

甚至还放出了狠话，说他们在推理、数学、编码、多语言理解和视觉方面，已经树立了新的行业基准。

但在大模型的数量，和火锅毛一样多的2024年，世超觉得只看跑分成绩，肯定不够全面的。

是不是真有两把刷子，还要从其他更专业的维度看看，实际上手体验更是少不了的环节。

于是世超找来了Claude3长达42页的技术报告，在研究的过程中，也上手试了试传说中的Claude3。

先说结论，Claude3是肯定能上擂台和GPT-4争夺最强大模型的名头的，至于能打成啥样，就仁者见仁，智者见智了。

技术报告里的Claude3展示了一波纸面实力，律师考试、数学竞赛等等考试啥的都不在话下，而且好几门成绩是远超GPT-4，官方也说Claude3Opus达到了人类本科生的知识水平。

而世超估计，Anthropic也是料到了大模型圈里的“做题家”和“刷榜哥”太多了，分数的说服力有些不够了。

于是，研究团队又在技术报告里加了一道更人性化的专业实践，找来了金融、法律、医学、哲学等领域的专家，和Claude3进行一对一问答，最后还由专家们给评分。

从结果来看，相较于前面几代的Claude，新模型也是直接突飞猛进。

为了让大伙儿有个更直观的感受，官方还公布了几个例子，让Claude3扮演经济分析师，在开放式的问题面前，它也能给出非常专业的分析结果。

就比如，给Claude3发一张美国过去二十多年的GDP图，让它预测下未来几年美国经济的大致走向。短短几秒，它不仅生成了结果，而且还预测出了好几十种走向。

GPT-4这边就“直截了当”多了，只给出了个增长的预测，变化曲线一点波动都不带。

还有位理论量子学博士，直接让Claude3研究起了自己的博士，它不仅能读懂的内容，还能有理有据地分析。

而相同的提示词喂给GPT-4，全程都没讲到的重点，只是在相关的名词上打转。

这听着怎么有点要端掉科研者饭碗的意思？为了体验下它的专业能力，我们也上手试了试Claude3。

世超先是上传了前几天写的超级光盘原文，让它解释一下原理。不到一分钟时间，Claude3就给出了答案，而且内容也没出啥错，读写数据的原理都给出了，还讲了光盘的结构。

在继续追问多层记录是如何实现后，它也能从光盘材质、刻写技术等方面给出答案。

GPT-4这边呢，也能讲出了大概的原理，不过没Claude3解释得那么详细。

有一说一，Claude3这种专业的分析，完全可以当读的生产力工具了。

在多模态这块，Claude3这次也来了个大升级，像这种字体都有点模糊的古早文件，肉眼识别起来都有点困难。

但世超丢给Claude3，它分分钟就能识别出来，还能尽力去补全每个单词，里面的错误，咱们顺一遍差不多就能改过来。

而GPT-4这边就有点大跌眼镜。把图发给它，它是看到啥生成啥，世超大概扫了一眼，几乎就没几个正确的单词。

世超也给Claude3发了个手写的黑板板书，除了最右边模糊的两个单词外，全都识别出来了。

GPT-4这边，这次做得倒是不差。

另外，Claude对自己“更安全”的模型定位，也是依旧走得比较靠前。

为了确保大模型不乱说话，Anthropic自己起草了一套AI法律不说，还以此为基础，搞了个叫做ConstitutionalAI的训练方法。

被这套方法训练出来的Claude，不会给出有毒、有偏见或者不道德的回答。

为了更安全，他们还搞了个名叫RSP的框架，对模型进行了风险分级，从ASL-1到ASL-4风险依次提升。

他们把阿尔法狗这种只会单一技能的AI，划定为没风险的ASL-1。

而现在的大模型包括Claude，都被列在第二档里，属于是“会无意识生成危险内容”那一挂。

ASL-3档往上，就都是会产生自主意识的AI了。

反正在给AI划了这四个风险档位之后，他们就给模型上了一连串安全防护措施，但凡有害提示一露头马上就被秒。

可以说，相比于GPT-4的奶奶漏洞还有谷歌Gemini的政治正确，Claude算是一个非常洁身自好的AI了。

但问题在于，这种安全都是以模型装傻充愣为前提的。

上一代Claude2.1发布的时候，就因为过于注重安全合规经常拒绝回答用户的问题，比如甩过去一个文档，它会以版权为由拒绝帮你总结。

让它停止一个正在运行的程序也干不了，就因为用了“kill”这个词。

因为这个，当时被不少外国网友吐槽“Claude已经死了”。

但好在，新一代的Claude3既兼顾了安全性，又提高了对有害提示的识别率，一刀切的情况少了很多。

我们让Claude3写了一段孤儿偷面包的小说情节，抛开文笔不谈，至少它愿意给你生成内容了。

这要放之前，Claude2.1会以这种情节鼓励儿童犯罪为理由，把你给拒了。

从Claude3的这一波实测来看，咱也不说它能全面超过GPT-4，但至少相对于上一代的Claude2.1，体验不知道是提升了多少。

之前按照外媒爆出来的瓜，ChatGPT就是OpenAI为了截胡Claude，才急忙整出来的。

现在Claude3都快踩在GPT-4头上了，奥特曼还能忍？（打起来打起来）

世超也好奇被Claude3这么一波“催更”，OpenAI啥时候能把GPT-4.5或者GPT-5拉出来溜溜啊？

已阅读：0

本站文章来自网络收集整理和网友投稿，如需申请删除，请与站长联系。

上一篇：刚刚，OpenAI 正式驳斥马斯克！称造福人类未必要开源，Ilya 久违发声

下一篇：苹果汽车被放弃，那么多专利该怎么办？

相关热门科技资讯优惠信息

3

查看更多科技资讯优惠信息

优惠网官方

网购新风尚，购物记得先领券哟！