国产 ChatGPT 赛道又添一员:「天工」大模型发布,我们准备了 20 问火速实测!...

news/2024/11/15 4:06:58/

c4380249fc40c4703a2a3e5d7f5f9218.gif

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

一个月前,百度「文心一言」的发布可谓赚足了眼球,国产 ChatGPT 之战也由此正式拉开序幕:阿里版类 ChatGPT「通义千问」突然官宣,商汤也发布了「商量」语言大模型加入战局。

就在昨日,国产大语言模型的赛道上又多了一位正式成员:4 月 17 日,昆仑万维正式发布千亿级大语言模型「天工」,同时宣布即日起启动邀请测试。

449c66d95a1b950e4de3e28953aee6f3.png

据官方介绍,「天工」由昆仑万维与国内领先的 AI 团队奇点智源联合研发,是国内首个对标 ChatGPT 的双千亿级大语言模型——千亿预训练基座模型和千亿 RLHF 模型,这使其具备了“更高级的自主学习和智能涌现能力”,可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求,最高已可支持 1 万字以上文本对话,实现 20 轮次以上用户交互…… 

说到这里,相信各位读者对「天工」的问答水平深感好奇。既如此,第一时间拿到「天工」内测邀请码的 CSDN,自然也要对其例行实测一番! (注:因同是“国产版 ChatGPT”,所以本次部分提问内容也参考了评测「文心一言」和「通义千问」的题目。) 

推荐阅读:

《文心一言 vs ChatGPT!相同 10 问,结果出乎意料》

《阿里版 ChatGPT 突然官宣!我们用 16 个提问,火速进行了测评……》 

《商汤加入 ChatGPT 战局,发布“商量”语言大模型!》

92aa5b2827762a13ca48b612da0c1923.png

自我介绍

先从简单的开始,考考「天工」的自我认知能力:介绍一下你自己吧。

e468512ad5a938cf9ab6533307aa55e4.png

前有百度「文心一言」、阿里「通义千问」和商汤「商量」的炸场,实际上「天工」的出场并未占得太多先机,相较之下它的优势何在:你与其他大规模语言模型相比,有什么优点?

fc8cb599e33cf23aa313e90685382fdf.png

如此看来,「天工」对自己的能力还是颇有自信的。接下来,我们就从「天工」自己所说的“文案创作、知识问答、代码编程、逻辑推演、数理推算”这五大维度进行深入测评。

b5c550cbe8fce3445619f34586d4ad0e.png

文案创作

上周,蓝色光标宣布用 AI 代替文案外包引起了网友热议,恰好「天工」也声称可满足“文案创作”的需求,来看看其发挥得如何:帮我开发的智能扫地机器人写一篇 600 字左右的宣传文案,要吸引人来购买。 

459e8cf9f74255d24facae6d20ca33f0.png

「天工」生成的这篇宣传文案,基本满足了所提要求,包括文末也提到了“赶快购买”。虽然正文部分的结构较为单一,但总体来看,「天工」在“文案创作”方面的表现还算是可圈可点。

f09d35d9ce79eee07f133a9e262a0a66.png

知识问答 

据官方介绍,「天工」团队投入大量资源攻克了中文语料库的质量瓶颈,从数十万亿的数据中清洗、筛选出了 3 万亿单词数据用于训练大模型。从「天工」对方言的掌握程度来看,确实不错:四川话“摆龙门阵”是什么意思? 

d3da1534ef92ee32f9643e26bf0b394f.png

常识问答「天工」也轻松拿下,还能给出相关解释:在中国首先用麻醉药的中医是谁?

8ceb47c6a82c6b08099e73929a66556c.png

 「天工」对成语的释义也基本准确,不过在补充成语典故时,其正确率还有待提高(“暗度陈仓”的典故主人公并非白起):“暗度陈仓”是什么意思? 

2d198a0f072b19b87fa431d112490f93.png 

146b981eda540bae5657c5f0ddfb20c9.png

代码编程 

在代码编程方面,我们也准备了三道题目考验「天工」的编码能力,并咨询了 CSDN-AI 团队研发总监的看法,他指出「天工」给出的代码基本实现了功能,编码水平还可以。 

提问:请写一个使用逻辑回归模型判断用户更喜欢天工还是 ChatGPT 的训练代码。

e901131a32a57a8f04045fa0edd305dc.png

提问:请用 C 语言,使用动态分配内存的方式,模拟 C++ 中 Vector 容器,实现动态数组的构建。 

8d21ce2b865b6465815a9295632d570a.pngf93d3e9dc2ac05c22b82622e05f35fb5.png

提问:“Using Python to Define a class named Vector to simulate the C++ Vector container and implement dynamic array construction using dynamic memory allocation.”

2e53d82da3d5e9016b82376a026902bc.png

adda533464d4e19d9825e102095109c8.png

c7c5a2d5c1b9338da73cf005e7e74990.png

dab7c6d4f9c39f097ca816f363938257.png

逻辑推演

不过,对一些较为“烧脑”的题目,「天工」的反应有些出乎意料,即直接否定了题干并没有给出解答:小明说:“如果昨天是明天的话就好了,那么今天就是周五了。”那么,小明说的今天是周几?

f0f4ca69c89e79cf51f9b75236cdeca8.png

3270ca8f6f64598a1d021e9fe9116cab.png

数理推算

在数理推算方面,鸡兔同笼问题可谓经典,对此「天工」的表现还不错:鸡兔同笼,一共有 4 个头,12 个脚,那么各有几只鸡、几只兔? 

0d101036651ef45efa7c4c4624adf922.png

不过,对于那道 ChatGPT 正确解答、却绊住「文心一言」和「通义千问」的初中数学应用题,「天工」也没给出正解,看来在这类较为复杂的题意理解上,目前国产 ChatGPT 均还有待加强。

248f746022002070f052ece230da911d.png

a412fa84a1d846eeb52edde4a4e181a4.png

多轮对话

「天工」着重强调了自己的多轮对话能力,下面我们就随机来几个问题:

391e9cb8a1fb926282e1c41e385d61d8.jpeg

你们觉得这位女生能追到她的男神吗?

e8694995531860c00440bdf1a2d7d109.png

闲聊一会儿

测评的最后,我们也来看看「天工」的闲聊水平。

提问:你知道 CSDN 吗?

8f1c8103ba609e253df5cd937552a128.png

提问:请你推荐一道成本低于 30 元(人民币)的菜及其做法吧? 

edde780cb15280f012e74a6e10961fec.png

对于这个问题,给出了详细做法的「天工」可谓“贴心”。 

提问:请模仿李白的风格原创一首诗?

ff9febba68963dff405cb659d172f2fe.png

最后一个是此前 CSDN 测评每个大模型都会问的问题,不过「天工」似乎有些“避而不答”? 

9271279d23212d3bae4da69b7de09a0d.png

至此,本次 CSDN 对于「天工」的测试就到此结束了。通过这些 Q&A,你对「天工」的评价如何呢?

「天工」官网:https://neice.tiangong.cn/

8aa4889eaf1cfbddc3e5709761195890.gif

☞马斯克回应特斯拉上海工厂克扣员工绩效奖;苹果版余额宝上线,年利率4.15%;Fedora 38 发布|极客头条
☞比OpenAI更快一步,最新开源的MiniGPT-4模型可让开发者提前感受GPT-4识图能力!
☞ChatGPT加剧恐慌?4成AIoT开发者认为AI会产生意识 | 中国AIoT开发者报告正式发布

fd5b09b4a28cd3917a27df210135d9ad.jpeg


http://www.ppmy.cn/news/969936.html

相关文章

GPT-4震撼来袭,ChatGPT已成过去?

背景 ChatGPT 点燃了科技行业的明灯,从他发布那天起, AI 下一步的发展已经成为最热门的话题之一,ChatGPT 是否已经是 AI 的一个突破?下一个大突破是否再等十年? 就在 2023年3月15日 凌晨,OpenAI 发布了多模…

GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

能终结chatGPT的人只有openAI自己。 ——阿卡夫斯基-作者本人 ::: 今日凌晨,OpenAI发布了GPT的最新一代版本ChatGPT-4,相比3.5,其AI能力再度进化,同时支持输入的内容不再仅限于文字,而且支持图像内容的输入&#xff0c…

GPT-4正式发布!如何访问 怎么免费使用GPT-4?

美国人工智能研究实验室OpenAI,周二为其爆红聊天机器人ChatGPT发布了最新GPT-4语言模型,这距离ChatGPT的上线仅仅过去了4个月时间。 和ChatGPT最初使用的GPT-3.5模型相比,GPT-4实现了几个方面的飞跃式提升:强大的识图能力&#x…

ChatGPT-5传闻将于2023年底推出,它会实现AGI吗?

人工智能研究实验室OpenAI最近因发布其大型语言模型 (LLM) 的最新版本ChatGPT-4而成为头条新闻。然而,关于 ChatGPT-5 开发的报道已经浮出水面,有传言称 OpenAI 预计将在 2023 年底完成培训。 由于 OpenAI 尚未公开讨论该项目,因此围绕GPT-5 …

GPT-4炸圈--多模态大模型

前言 在chatGPT如火如荼的时候,OpenAI又上演了王者归来的戏码,重磅发布了GPT-4。GPT-4是作为“帮你写代码”和你“肆意聊天”的chatGPT的基础模型GPT-3的升级版,是一个新的里程碑。 GPT-4 是一个大型多模态模型,虽然很多能力还不…

ChatGPT-4:恐怖的AI再度进化,可识别图像内容

近日,OpenAI公司发布了一款新的AI技术——ChatGPT-4,它是一种基于自然语言处理的深度学习模型,可以识别图像内容并生成相应的文字描述。ChatGPT-4的发布,标志着人工智能技术再度进化,令人恐惧。 ChatGPT-4是OpenAI公…

竞品还在追赶 OpenAI用GPT-4飚赢自己

赶在百度“文心一言”发布前一天,OpenAI祭出了GPT-4,这对于百度、谷歌们来说,可能是一个重大打击。 人们已经领略过GPT-3.5加持下的ChatGPT,但GPT-4比“前辈”更强大,它具有更高的可靠性和准确性,能够读懂…

GPT-4来炸场:10秒输出一个网站,识图知意 so easy,为何如此丝滑

比被卷更可怕的莫过于自己卷自己,这点还得是OpenAI更胜一筹。 四个月前,ChatGPT 刚刚推出,并成为历史上增长最快的消费者应用程序。在ChatGpt大杀四方时,万众瞩目的大型多模态模型GPT-4也在今天凌晨正式发布。 据OpenAI官方介绍&…