测试 | 讯飞星火升级，能力有很大提升，不再一本正经胡说

6月9日，讯飞星火认知大模型发布，内容详见：

新闻通稿表明：

讯飞星火认知大模型再次提升核心能力，开放式知识问答、逻辑和数字能力、以及多轮对话，三大综合能力升级。

但是事实是不是这样？我们还是全面测试才能了解。

一、测试内容

在讯飞星火刚刚推出的时候，我曾经写过一系列测评文章：

文心一言和讯飞星火全面对比测试：（一）语言理解能力

文心一言和讯飞星火全面对比测试：（二）任务完成

文心一言和讯飞星火全面对比测试：（三）常识问题

文心一言和讯飞星火全面对比测试：（四）逻辑数学

文心一言和讯飞星火全面对比测试：（五）编程能力

这些文章全面的测试国内两大大模型在5个方面的能力，今天，我们依旧选择上次测试中的一些用例，特别是上次讯飞星火完成欠佳的测试用例，看看是不是有提升，提升了多少。

二、语言理解能力

用例：根据下面句子的描述：明明明明明白白白喜欢他，但是明明就是不说。请问：谁喜欢谁？
1.0版本	1.5版本
根据描述，"明明明明明白白白喜欢他"表示一个人喜欢另一个人。这里的"明明"指的是这个人的名字，而"明明明明白白白喜欢他"则表示这个人非常清楚地喜欢另一个人。所以，是"明明"喜欢"他"。	喜欢的人是“明明”，因为句子中提到“明明明明明白白白喜欢他”。
结论：1.5这次依旧错了

用例：大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问：1、究竟谁是小偷？2、钱本来是谁的？
1.0版本	1.5版本
这是一个有趣的故事，我们可以从中找到一些线索来回答这两个问题： 1. 谁是小偷？根据描述，四舅去了五舅家并从七舅的柜子里拿走了1000元钱。所以，四舅是小偷。 2. 钱本来是谁的？由于四舅是从七舅的柜子里拿走的钱，那么这笔钱原本是属于七舅的。然而，四舅为了得到这笔钱，采取了不诚实的行为，所以实际上钱并没有归还给七舅。	根据描述，四舅被指控偷了钱。所以，1、四舅是小偷。 2、钱本来应该属于五舅。
结论：1.5版本这次对了，提升明显

用例：人民日报5月9日的一篇文章： “希望全国广大青年牢记党的教诲，立志民族复兴，不负韶华，不负时代，不负人民，在青春的赛道上奋力奔跑，争取跑出当代青年的最好成绩！” ...... ...... “人生万事须自为，跬步江山即寥廓。”立足新时代新征程，当代中国青年坚定不移跟党走，在奋斗中释放青春激情、追逐青春理想，定能以青春之我、奋斗之我，为民族复兴铺路架桥，为祖国建设添砖加瓦。请根据上述文字，写一篇150字的摘要
1.0版本	1.5版本
抱歉，我还没有学习到关于这个话题的内容，无法提供相关信息。您可以选择其他问题，我将努力为您解答。	抱歉，我还没有学习到关于这个话题的内容，无法提供相关信息。您可以选择其他问题，我将努力为您解答。
结论：这明显是讯飞星火的一个回避策略

通过测试，我确定了，对于讯飞认为的不适合回答的问题，他都拒绝回答，同时，从测试结果来看，1.5版本还是有明显的提升。

三、完成任务

用例：
1.0版本
1.5版本	1.5版本直接给出了一个python程序，运行程序后；生成的数据：只有商品名顺序加，收货时间和发货时间是随机的，其他都是不变。
结论：1.0虽然没有输出20行，但是输出的5行都正确的，说明他理解了提问人的意思，1.5明显没有理解问题，1.5的表现不如1.0。

用例：按照要求对一个句子进行处理：我会给你一句话，请把这句话重复两遍，第一遍逐字完全倒过来写，第二遍把第一遍的结果再逐字完全倒过来。这句话是：“我是学习GPT 2天半的练习生喜欢唱跳和拉普”
1.0版本
1.5版本
结论：无明显改进

用例：你现在是一位诗人，请用“两年半练习生最棒”作一首藏头诗，赞扬一个歌手刻苦努力，技艺精湛，德艺双馨。
1.0版本
1.5版本
结论：有部分的改进，但是还是没有完成

通过测试，在任务完成方面，1.5版本的提升并不大。

四、常识问题

用例：地球上海拔第3的山峰是哪座？
1.0版本
1.5版本	地球上海拔第3的山峰是干城章嘉峰，位于印度和尼泊尔的边界，也是喜马拉雅山脉的山峰，其海拔高达8586米，是世界第三高峰。
结论：提升明显

用例：在中国古代，宋神宗指的是谁，历史上记载他哪一年去世的？
1.0版本
1.5版本	宋神宗赵顼（1048年5月25日—1085年4月1日），初名赵仲针，宋英宗赵曙长子，生母宣仁圣烈高皇后，北宋第六位皇帝（1067年1月25日—1085年4月1日在位）。治平元年（1064年），进封颍王。治平三年（1066年）十二月，被立为皇太子。治平四年（1067年）正月继位。元丰八年（1085年），宋神宗赵顼在福宁殿忧郁而逝，享年38岁，庙号神宗，谥号为英文烈武圣孝皇帝，葬于永裕陵，子赵煦嗣位。
结论：这次回答正确，比较有意思的是，回答的内容基本和百度百科上的介绍一模一样。

用例：在中国历史上有一个著名的事件:"关公战秦琼"，请问这个事件是哪一年发生的，主要事件经过是什么样的?
1.0版本
1.5版本	《关公战秦琼》，也叫《唐汉争》，是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代，侯宝林在张杰尧演出本的基础上加以改编而成。《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿，寿公愚昧无知，在堂会上点戏，让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥，哭笑不得，难以为继，闹出了笑话的故事。关公就是关羽，是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目，因为两人出生于不同年代不可能相战。所以说，这个相声极具讽刺性。于是“关公战秦琼”这句话，就流传了下来用于讽刺不懂装懂，不切合实际，盲目指挥的人。
结论：在“事实错误”的类型的回答中，1.5版本的确提升很多，包括“林黛玉倒拔垂杨”，“鲁智深大闹天宫”，“张朝阳创立新浪”这样的问题，他都能和好的应对。

在常识问题，1.5比1.0的提升是巨大的，特别是大模型一本正经的胡说八道的问题，1.5改进很大。

五、逻辑数学

用例： 1、2、4、8、16......试按此规律写出第11个数？
1.0版本
1.5版本
结论：这次回答正确，提升明显

用例：同学们站成一排，从左边数华华是第 5人，从右边数第 4 人是华华，这排共有多少人？
1.0版本
1.5版本
结论：这次回答正确，提升明显

用例：有A、B、C、D、E五个自然数,其中A>B，E>C>D，D>B，E>A。请从小到大排列这些数
1.0版本
1.5版本
结论：这次还是错了，而且从回答的内容上看，1.0至少知道是要从小到大排列一下。

用例：你有1000kg蘑菇，含水量是99％。现在晒几天，晒到含水量为98%，那需要晒掉多少水？
1.0版本
1.5版本
结论：有进步，一步一步的解题思路有进步，要是按照步骤给分，怎么也能有一半的分了吧

用例：小明到爷爷办的养牛场去玩，小明问：“爷爷，这里有多少头奶牛呢？”，爷爷说：“这群奶牛，4头4头的数，多3头；6头6头的数，多5头；15头15头的数，多14头，而且这群奶牛的数量在150~200头之间。”你计算一下，这群奶牛有多少头？
1.0版本
1.5版本
结论：回答正确，而且这个做题的思路就是小学孩子的思路。

从测试结果上看，数学能力上1.5版本还是提升很大的。

六、编程能力

用例： B2048 计算邮资用Python和C++编程计算邮费。计算规则如下：根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内（包括），基本费8 元；超过1000 克的部分，每500 克加收超重费4 元，不足500克部分按500克计算；如果用户选择加急，多收5元。输入格式：一行，包含一个正整数x（大于1小于10e6）和一个字符c(取值为y或n)，之间用一个空格隔开，分别表示重量和是否加急。如果字符是 y，说明选择加急；如果字符是 n，说明不加急。输出格式：输出一行一个正整数，表示邮费。
1.0版本	讯飞星火的Python程序得了20%的分，主要问题在于计算加重没有扣除1000g，C++代码变量定义就有问题，编译没有办法通过，后面的逻辑也是和Python一样的错误。
1.5版本	这次编程的结果出乎意料，上次编写的程序至少是完整的，Python还得了20%分，C++至少结构是完整的，这次写了一半就不写了。
结论：从这题来说，1.5有退步。

用例：我用Python编程计算邮费。计算规则如下：根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内（包括），基本费8 元；超过1000 克的部分，每500 克加收超重费4 元，不足500克部分按500克计算；如果用户选择加急，多收5元。输入格式：一行，包含一个正整数x（大于1小于10e6）和一个字符c(取值为y或n)，之间用一个空格隔开，分别表示重量和是否加急。如果字符是 y，说明选择加急；如果字符是 n，说明不加急。输出格式：输出一行一个正整数，表示邮费。我编写的程序如下： weight, is_urgent = input().split() weight = int(weight) basic_fee = 8 if weight > 1000: overweight = weight - 1000 extra_fee = (overweight // 500 + 1) * 4 else: overweight = 0 extra_fee = 0 if is_urgent == 'y': total_fee = basic_fee + extra_fee + 5 else: total_fee = basic_fee + extra_fee print(total_fee) 但是，当重量超出部分刚好被500整除时，计算错误，请帮我修改程序，并将程序输出。
1.0版本	没有做任何的修改，提醒之后：指出，但是就不改。
1.5版本	得出的结果：修改前修改后：他是把第8个测试点的bug修改了，但是其他的地方也改了，
结论：虽然还是没有完全做对，但是至少努力了，因此还是算提升了。