文心一言和讯飞星火全面对比测试:(五)编程能力

news/2024/10/21 3:35:18/

相关文章:

实战 | 用ChatGPT处理word表格数据:直接采用ChatGPt和利用ChatGPT编写python脚本两种方法

「文心一言」 vs ChatGPT,结果没有你想向中的那么不堪

文心一言和讯飞星火全面对比测试:(一)语言理解能力

文心一言和讯飞星火全面对比测试:(二)任务完成

文心一言和讯飞星火全面对比测试:(三)常识问题

文心一言和讯飞星火全面对比测试:(四)逻辑数学

前文回顾:

在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。

在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。

在(三)常识问题中,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,测试关公战秦琼和林妹妹倒拔垂杨柳,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。

在(四)逻辑数学中,测试了简单的逻辑推理和文字逻辑题,表现都不如意,测试了几个小学的数学题和奥数题,除了鸡兔问题外,其他的题完成也不好,AI在数学上的表现还要继续努力

今天我们来测试两个模型在编程能力上的表现。比较AI在编程能力上还是有优势的。

 1.测试内容设计

自深度学习使得AI技术进入跨越式发展阶段以来,业界就一直在尝试用AI来写代码。

他们自己也表明熟悉多种语言

文心一言:

讯飞星火:

ChatGPT:

测试分为两个方面:

1. 简单代码完成:常见入门级别的编程问题(洛谷入门级),主要的语言为Python和C++;

2. 代码阅读和debug:给一段代码,代码进行注释;根据AI自己编的错误程序,看能不能完成Debug。

2.简单逻辑推理

用例1:B2010 带余除法

请用Python和C++分别帮我编写程序实现如下功能:

给定被除数和除数,求整数商及余数。此题中请使用默认的整除和取余运算,无需对结果进行任何特殊处理。

输入:

一行,包含两个整数,依次为被除数和除数(除数非零),中间用一个空格隔开。

输出:

一行,包含两个整数,依次为整数商和余数,中间用一个空格隔开。

文心一言:

看程序,文心一言完成没有问题,但是他对输入输出的有问题,提醒后,依然没有修改。

讯飞星火;

这个程序输入到洛谷,可以通过100分

ChatGPT

程序正确,提交能够通过,100分。

用例2:B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下:

根据邮件的重量和用户选择是否加急计算邮费。

重量在1000 以内(包括),基本费8 元;

超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;

如果用户选择加急,多收5元。

输入格式:

一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。

如果字符是 y,说明选择加急;如果字符是 n,说明不加急。

输出格式:

输出一行一个正整数,表示邮费。

文心一言:

看程序,文心一言完全没有理解到题意,从前几次的测试上来看,文心一言的理解能力是比较差的,这样的程序肯定是通不过的。

讯飞星火;

讯飞星火的Python程序得了20%的分,主要问题在于计算加重没有扣除1000g,C++代码变量定义就有问题,编译没有办法通过,后面的逻辑也是和Python一样的错误。

ChatGPT

python,C++程序提交,10个测试点通过9个,一个应该是超重是500的倍数时,如图中标红的地点,就不要+1。

题目只是稍微变难一点,就拉开差距了。后面的测试觉得没有必要做了,很多的题目完成度太低,就不贴出来了

2.程序标注和debug

用例1:对一个简单的程序进行注释

文心一言:

标注得不错,但是输出不是很稳定,有时会出错。

讯飞星火:

回答也不错。

ChatGPT:

就标注来说,整体完成不错。

用例2:对程序进行Debug

选择的是ChatGPT编写的计算邮费的程序,指出当重量是2000时计算错误。

我用Python编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。

我编写的程序如下:

weight, is_urgent = input().split()

weight = int(weight)

basic_fee = 8

if weight > 1000:

overweight = weight - 1000

extra_fee = (overweight // 500 + 1) * 4

else:

overweight = 0

extra_fee = 0

if is_urgent == 'y':

total_fee = basic_fee + extra_fee + 5

else:

total_fee = basic_fee + extra_fee

print(total_fee)

但是,当重量超出部分刚好被500整除时,计算错误,请帮我修改程序,并将程序输出。

文心一言:

首先做了一个修改,但是这修改变得更差了,我提醒他:

我提醒他,但是,他就这样回答我?,是我的描述不对吗?算了吧

讯飞星火:

没有做任何的修改,提醒之后:

指出,但是就不改,像极了我自己,

ChatGPT:

当我提出整除出现错误时,立马体会到了我的意思,而且这个+499向上取整的做法也挺巧妙的,要我会加一个判断

差距啊,差距!!

提交,全部通过!

4.总结

今天测试了三个模型的编程能力,ChatGPT的能力还是可以的,我在其他的测试中已经体会道路,但是文心一言和讯飞星火还要努力。

关于文心一言和讯飞星火的测试就全部结束。

还有没有测试到的地方,或是测试方法有错误的地方,希望大家指出,后期看有没有时间做更详细的测试。

希望国产的AI大模型越来越好。


http://www.ppmy.cn/news/966437.html

相关文章

快捷工具箱小程序-做你的小树洞

今天闲来无事,发现了一个有趣的小程序-做你的小树洞,包含ChatGpt小机器人 小程序总体界面是这样的 这个小程序里边有很多有趣的小功能,最让我喜欢的就是藏头诗的创作。仅仅需要输入关键词语,然后就能够进行创作诗句,他…

测试 | 讯飞星火升级,能力有很大提升,不再一本正经胡说

6月9日,讯飞星火认知大模型发布,内容详见: 新闻通稿表明: 讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。 但是事实是不是这样?我们还…

由文心一言发布会引发的思考,聊聊我未来的学习规划

文章目录 前言一. 文心一言的试用1.1 文心一言发布会1.2 文心一言图片生成功能试用1.3 文心一言文本功能试用1.4 文心一言代码功能试用1.5 试用总结 二. 我未来的学习规划2.1 向csdn的大佬请教2.2 关于AIGC的思考2.3 我未来的学习方向和计划 总结 前言 大家好,我是…

因ChatGPT爆红的NLP培养计划|拿不到年薪25W全额退款

“ChatGPT可怕的是,它会将世界的命运重新洗牌” 人类已经历3次超级工具的“革命”,每一次都重塑了世界新的格局。 第一个降临的超级工具就是互联网,它用虚拟的聚合,打开了现实的距离,将地球压缩成村落。极大程度的模糊…

藏头诗生成器

一个藏头诗生成器的小程序,自定义文字即可生成一首诗词。 该小程序通过机器学习,预训练8万多首诗词,5千多个韵词,能通过关键词生成押韵的藏头诗,也可以生成藏字诗; 在生成结果页面,可选择复制…

使用Python实现自学习专家系统的研究和应用

引言:专家系统是一种基于人工智能的计算机应用程序,可以根据用户提供的问题和数据,通过推理和规则匹配来生成相应的答案和解决方案。在许多领域,专家系统已经成为了不可或缺的工具。然而,传统的专家系统通常需要手动创…

AI大集合,人工智能的百家争鸣。

好久不见,亲爱的忠实fans!小编因工作原因隐身了一段时间,已算是人生一段修炼历程吧!花开两朵,各表一枝。回到今晚的theme-AI大集合,人工智能的百家争鸣时期。继国外ChatGPT诞生之后,特别是GPT4大…

专访图灵人工智能研究院CEO李强:未来合规与数据安全将是国产AI大模型行业应用核心竞争力...

金句集锦 1 毫不夸张的说,在未来,谁在合规方面做的最好,谁就最具有核心竞争力。 2 ChatGPT的诞生无疑为人工智能发展史上添上了浓墨重彩的一笔,它的出现让“人工智能是第四次工业革命”的论断变成了无人可以否认的愿景。 3 由于大…