测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说

news/2024/10/21 3:44:34/

6月9日,讯飞星火认知大模型发布,内容详见:

新闻通稿表明:

讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。

但是事实是不是这样?我们还是全面测试才能了解。

一、测试内容

在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

文心一言和讯飞星火全面对比测试:(五)编程能力

这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。

二、语言理解能力

用例:

根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。

请问:谁喜欢谁?

1.0版本

1.5版本

根据描述,"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字,而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以,是"明明"喜欢"他"。

喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。

结论:1.5这次依旧错了

用例:

大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?

1.0版本

1.5版本

这是一个有趣的故事,我们可以从中找到一些线索来回答这两个问题:

1. 谁是小偷?根据描述,四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以,四舅是小偷。

2. 钱本来是谁的?由于四舅是从七舅的柜子里拿走的钱,那么这笔钱原本是属于七舅的。然而,四舅为了得到这笔钱,采取了不诚实的行为,所以实际上钱并没有归还给七舅。

根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。

2、钱本来应该属于五舅。

结论:1.5版本这次对了,提升明显

用例:

人民日报5月9日的一篇文章:

“希望全国广大青年牢记党的教诲,立志民族复兴,不负韶华,不负时代,不负人民,在青春的赛道上奋力奔跑,争取跑出当代青年的最好成绩!”

......

......

“人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。

请根据上述文字,写一篇150字的摘要

1.0版本

1.5版本

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

结论:这明显是讯飞星火的一个回避策略

通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。

三、完成任务

用例:

1.0版本

1.5版本

1.5版本直接给出了一个python程序,运行程序后;生成的数据:

只有商品名顺序加,收货时间和发货时间是随机的,其他都是不变。

结论:1.0虽然没有输出20行,但是输出的5行都正确的,说明他理解了提问人的意思,1.5明显没有理解问题,1.5的表现不如1.0。

用例:

按照要求对一个句子进行处理:

我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普”

1.0版本

1.5版本

结论:无明显改进

用例:

你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。

1.0版本

1.5版本

结论:有部分的改进,但是还是没有完成

通过测试,在任务完成方面,1.5版本的提升并不大。

四、常识问题

用例:

地球上海拔第3的山峰是哪座?

1.0版本

1.5版本

地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。

结论:提升明显

用例:

在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的?

1.0版本

1.5版本

宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。

元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。

结论:这次回答正确,比较有意思的是,回答的内容基本和百度百科上的介绍一模一样。

用例:

在中国历史上有一个著名的事件:"关公战秦琼",请问这个事件是哪一年发生的,主要事件经过是什么样的?

1.0版本

1.5版本

《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。

《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。

关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。

结论:在“事实错误”的类型的回答中,1.5版本的确提升很多,包括“林黛玉倒拔垂杨”,“鲁智深大闹天宫”,“张朝阳创立新浪”这样的问题,他都能和好的应对。

在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。

五、逻辑数学

用例:

1、2、4、8、16......试按此规律写出第11个数?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?

1.0版本

1.5版本

结论:这次回答正确,提升明显

用例:

有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数

1.0版本

1.5版本

结论:这次还是错了,而且从回答的内容上看,1.0至少知道是要从小到大排列一下。

用例:

你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?

1.0版本

1.5版本

结论:有进步,一步一步的解题思路有进步,要是按照步骤给分,怎么也能有一半的分了吧

用例:

小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?

1.0版本

1.5版本

结论:回答正确,而且这个做题的思路就是小学孩子的思路。

从测试结果上看,数学能力上1.5版本还是提升很大的。

六、编程能力

用例:

B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

1.0版本

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

1.5版本

这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。

结论:从这题来说,1.5有退步。

用例:

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。我编写的程序如下:

weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

1.0版本

没有做任何的修改,提醒之后:

指出,但是就不改。

1.5版本

得出的结果:

修改前

修改后:

他是把第8个测试点的bug修改了,但是其他的地方也改了,

结论:虽然还是没有完全做对,但是至少努力了,因此还是算提升了。

从测试上来看,在编程能力上,1.5版本进步不大。

七、总结

今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:

理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。

完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。

常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。

逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。

编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。

综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。

讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。


http://www.ppmy.cn/news/966435.html

相关文章

由文心一言发布会引发的思考,聊聊我未来的学习规划

文章目录 前言一. 文心一言的试用1.1 文心一言发布会1.2 文心一言图片生成功能试用1.3 文心一言文本功能试用1.4 文心一言代码功能试用1.5 试用总结 二. 我未来的学习规划2.1 向csdn的大佬请教2.2 关于AIGC的思考2.3 我未来的学习方向和计划 总结 前言 大家好,我是…

因ChatGPT爆红的NLP培养计划|拿不到年薪25W全额退款

“ChatGPT可怕的是,它会将世界的命运重新洗牌” 人类已经历3次超级工具的“革命”,每一次都重塑了世界新的格局。 第一个降临的超级工具就是互联网,它用虚拟的聚合,打开了现实的距离,将地球压缩成村落。极大程度的模糊…

藏头诗生成器

一个藏头诗生成器的小程序,自定义文字即可生成一首诗词。 该小程序通过机器学习,预训练8万多首诗词,5千多个韵词,能通过关键词生成押韵的藏头诗,也可以生成藏字诗; 在生成结果页面,可选择复制…

使用Python实现自学习专家系统的研究和应用

引言:专家系统是一种基于人工智能的计算机应用程序,可以根据用户提供的问题和数据,通过推理和规则匹配来生成相应的答案和解决方案。在许多领域,专家系统已经成为了不可或缺的工具。然而,传统的专家系统通常需要手动创…

AI大集合,人工智能的百家争鸣。

好久不见,亲爱的忠实fans!小编因工作原因隐身了一段时间,已算是人生一段修炼历程吧!花开两朵,各表一枝。回到今晚的theme-AI大集合,人工智能的百家争鸣时期。继国外ChatGPT诞生之后,特别是GPT4大…

专访图灵人工智能研究院CEO李强:未来合规与数据安全将是国产AI大模型行业应用核心竞争力...

金句集锦 1 毫不夸张的说,在未来,谁在合规方面做的最好,谁就最具有核心竞争力。 2 ChatGPT的诞生无疑为人工智能发展史上添上了浓墨重彩的一笔,它的出现让“人工智能是第四次工业革命”的论断变成了无人可以否认的愿景。 3 由于大…

阿里减持商汤股票;金山办公将推出WPS AI;华为发布问界M5智驾版;东软集团2022年归母净利同比降129.23%丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 百家云推出人工智能生成内容(AIGC)解决方案 4月17日,音视频SaaS上市公司百家云宣布,公司将正式推出应用于多个垂直行业及场景的人工智能生成内容及视频解决方案。…

马斯克发怒,称要起诉微软:他们使用 Twitter 数据进行非法训练!

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 马斯克在刚官宣进军 AI 赛道的两天后,便与 OpenAI、微软打起了“口水战”,暗示或将与 OpenAI、微软对簿公堂。在势要干成「TruthGPT」的一腔热血背后,马斯克大有一波…