国产大模型超越GPT-3.5勇夺OpenAI评测榜首,推理能力再创新高
2023-10-23 12:00:07 科技资讯 作者:王富贵
本文给大家分享的是国产大模型超越GPT-3.5勇夺OpenAI评测榜首,推理能力再创新高的相关内容!
随着科技的飞速发展,人工智能领域也取得了令人瞩目的成果。一款名为国产大模型的AI模型在OpenAI评测中勇夺榜首,超越了此前备受瞩目的GPT3.5。这款AI模型的推理能力再创新高,引发了业界和公众的广泛关注。
那么,究竟是什么原因使得这款国产大模型能够在众多竞争对手中脱颖而出?它的出现又将给人工智能领域带来怎样的变革?让我们一起探讨这个问题,揭开国产大模型背后的神秘面纱。
国产大模型在权威推理评测集GSM8K中,首次达到了80%正确率,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。
内含测试API及相关信息。
另一个推理评测基准HumanEval,以及两个通识评测基准MMUL、C-Eval上,天工大模型也有出色表现。
△根据公开测试数据搜集整理
HumanEval同样出自OpenAI,是OpenAI为了评估Codex模型的有效性而创建的数据集。
通过这个数据集,研究人员可以对Codex模型进行评估,并了解其在代码生成方面的准确性和效果。
在这个数据集上,天工大模型成绩是37.2%。
MMLU是UC伯克利等打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目。
其主要目标,是对模型的跨学科专业能力进行深入测试。天工大模型的成绩是65%。
C-EVAL评测基准由上海交大、清华以及爱丁堡大学联合创建,是一个面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。
天工大模型的得分为65,超过了GPT-3.5的54.4的成绩。
成绩亮眼的天工大模型,发布在今年4月。
其AI生成能力可满足创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。
4月发布,9月能取得酱紫的成绩,昆仑万维是怎么饲养天工大模型这匹黑马的?
先拿模型实力来说话。
这是一个双千亿大模型(指天工拥有千亿预训练基座模型和千亿RLHF模型。),目前版本最高支持1万字以上文本对话,实现20轮次以上用户交互。
二者的“强强联手”之下,天工大模型的优势便凸显了出来。
而模型层之外,为大模型积攒实力的无外乎算法、算力、数据三大件。
算法层方面,天工大模型也有自己的秘籍。
通常来说,市面上大模型们普遍采用Transformer架构。在此基础上,天工团队首次引入了蒙特卡洛搜索树算法(AlphaGo背后也是这算法)。
再说天工大模型背后的算力,基于中国最大的GPU集群之一。
强劲算力鼎力支持的,是天文数字版的数据量——按照借助“开源力量”的策略,天工从数十万亿的数据中,最终清洗、筛选出了近3万亿单词的数据。
现在,天工大模型在推理、通识多个榜单开花,可以想见因为背后算力、算法、数据扎实储备,天工大模型拥有的已经不是模型规模优势,技术创新和推理性能方面,也有了新突破。
国产大模型绕不过的狠角色
其实,推理能力大幅超过GPT-3.5和LLaMA2,已经不是昆仑万维携天工大模型第一次拿成绩炸场。
不久之前,天工大模型多模态团队的Skywork-MM用了大约50M的图文数据,以远小于其他大模型的数据量(>100M),登顶了多模态榜单。
△MME感知榜第一,认知榜第二,总榜第一
昆仑万维另一则引得众人瞩目的新闻,是AI大牛颜水成的加入。
他出任天工智能联席CEO、2050全球研究院院长,将在新加坡、伦敦、硅谷三地建立2050全球研究院的研究中心,并逐步开展几个领域的研究:下一代FoundationModel的基础研究和研发;
Agent的研发和智能体进化的研究;
生物智能等前沿技术领域的探索。
颜水成道出加-盟昆仑万维的原因:在通用人工智能领域,从研究、研发到产品是完整的链条,缺一不可,只有将三者完全打通,研究才能发挥最大价值。
在国内,能将研究、研发、产品三线合一的平台少之又少,昆仑万维布局了AI大模型、AI动漫、AI社交、AI游戏、AI搜索和AI音乐六大方向,同时昆仑万维的核心业务面向全球市场,其能力矩阵和生态系统非常具有想象空间。
大模型潮流,浩浩荡荡。
今年以来国产大模型的发展势头迅猛,吸引越来越多的人才加入其中,由此助力各家大模型不断地迭代升级,涌现出更强大的能力,适配更广泛的应用场景。
昆仑万维在大模型的变革中,战略重视,动作频频,而且也有业务场景。
可以不夸张地说一句,昆仑万维和它家的天工大模型,已经是大模型江湖中,一个绕不过去的狠角色了。
这次,和国产大模型超越GPT-3.5勇夺OpenAI评测榜首,推理能力再创新高有关内容就为朋友们整理到这里,更多优惠活动资讯信息可查看本站其他栏目。