语言模型测试系列【7】

devtools/2024/9/22 18:17:11/

语言模型

  1. 文心一言
  2. 星火认知大模型
  3. 通义千问
  4. 豆包
  5. 360智脑
  6. 百川大模型
  7. 腾讯混元助手
  8. Kimi Chat
  9. 商量
  10. C知道

今天看CSDN文章,看到了斐波那契数列这个有趣的数列计算,然后就在文心一言中对答了一波,给的答案很完整,而且给出来python的实现代码,但它给出的结果真是跟代码输出的结果差一位,不管我如何在对话框里说它的错误,改了好几轮都跟回答的结果不一致,这就勾起了我测试几大模型的兴趣,于是组织一下问题重新提问,同时引入C知道一起测试。

提问及回答

问题:请使用python编写一段代码,实现斐波那契数列第10位数的值。
追问:这段代码的结果是多少?
说明:为何加一个追问环节呢,主要是有的模型只给实现代码,并不给出结果,所以为了保证公平性,就追问结果,跟编译器实现的结果来做对比了。

文心一言

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

讯飞星火认知大模型

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

通义千问

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

豆包

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

360智脑

在这里插入图片描述
在这里插入图片描述

Pycharm编译器

在这里插入图片描述

腾讯混元助手

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

Kimi Chat

在这里插入图片描述

Pycharm

在这里插入图片描述

商量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Pycharm编译器

在这里插入图片描述
在这里插入图片描述

C知道

在这里插入图片描述

Pycharm编译器

在这里插入图片描述

对比分析

首先,百度一下斐波那契数列,看看正确的解释。

斐波那契数列(Fibonacci sequence),又称黄金分割数列,因数学家莱昂纳多·斐波那契(Leonardo Fibonacci)以兔子繁殖为例子而引入,故又称“兔子数列”,其数值为:1、1、2、3、5、8、13、21、34……在数学上,这一数列以如下递推的方法定z义:F(0)=1,F(1)=1, F(n)=F(n - 1)+F(n - 2)(n ≥ 2,n ∈ N*)。

然后看看各大模型给出的结论,通过下表对比来分析。

模型名称回答内容
文心一言3.5所列数列从0开始,第10位数是34,回答结果55,代码执行结果为34
讯飞星火认知大模型所列数列从0开始,第10位数是34,回答结果34,代码执行结果为34
通义千问所列数列从0开始,第10位数是55,回答结果55,代码执行结果为55,但数列中没有34这个数
豆包未给出数列,回答结果55,代码执行结果为55
360智脑所列数列从0开始,第10位数是34,回答结果34,代码执行结果为34
百川大模型所列数列从0开始,第10位数是34,回答结果55,代码执行结果为55
腾讯混元助手所列数列从0开始,第10位数是34,回答结果34,代码执行结果为34
Kimi Chat所列数列从0开始,第10位数是34,回答结果34,代码执行结果为34
商量所列数列从0开始,第10位数是34,回答结果34,代码执行结果为34
C知道未给出数列,回答结果34,代码执行结果为34,免费两次。。。

总结

这次的提问比较偶然,百度百科关于斐波那契数列的解释是从1开始的,那么第10位数就是55,可在回答上,给出数列的都是从0开始,这就导致了55这个值是在第11个数上。
那么从以上回答的结果来看,首先从回答问题和执行结果不一致上,排除“文心一言3.5”和“通义千问”这俩模型,回答上怪怪的。
按百度百科的解释,斐波那契数列的数列是从1开始的,那执行结果正确的是豆包百川大模型,而百穿大模型却是手欠的给出了数列,数了一下第10位是34,这点上没有豆包聪明,不多说话。
其他的语言模型嘛,估计都是按数列起始从0开始排的了,给出回答和执行结果都一致,也不能说不对,但还是差点意思。

总之,这次的测试,都差点意思的感觉,不太理想。。。

小注:
继续努力。


http://www.ppmy.cn/devtools/37480.html

相关文章

gradio图像复原界面改进

图像复原界面展示需要输入图像和复原图像在界面的清晰对比,修改两张图像为同样大小。 默认情况: intreface代码如下: interface gr.Interface(fnrestore, # 要调用的函数inputs[gr.Image(label"输入图像")], # 第一个输入&am…

环保访谈|浙江双视专注红外机器视觉及智能化应用,保障安全生产

近期,中联环保圈希姐采访了浙江双视科技股份有限公司环保行业销售总监孙波,深入了解了双视科技的发展历程、产品和解决方案、合作流程、核心竞争力以及未来规划。 双视于2014年创立,专注于红外机器视觉、人工智能技术与应用开发,…

卸载系统自带APP

Firefly RK3588 android 12自动多个系统软件,无法从UI界面进行手动删除。因此,考虑使用shell指令进行处理。 系统自动APP大多都安装在system/app目录下,且该目录多为只读。因此采用如下步骤, //Shell su adb shell su //重新挂载…

C++字模软件发送 单片机接收显示

/****先定义数组类型再赋值**L310*********/ /*2014 8 21 10:01**PAST*CODE1000**TEST**/ #include<reg51.h> #define uint unsigned int #define uchar unsigned char sfr AUXR0x8e; //辅助寄存器 sfr SADDR0xA9; …

爬虫学习(3)豆瓣电影

代码 import requests import jsonif __name__ "__main__":url https://movie.douban.com/j/chart/top_list#post请求参数处理&#xff08;同get请求一致&#xff09;headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53…

深度解析互联网医疗源码:视频问诊APP开发技术剖析

视频问诊APP作为在线医疗其中的重要一环&#xff0c;正在改变人们就医的方式。今天&#xff0c;我将为大家详解互联网医疗源码&#xff0c;探讨视频问诊APP开发技术&#xff0c;揭示其背后的原理和关键技术。 一、视频问诊APP的基本功能 视频问诊APP作为一种新型的医疗服务平台…

STM32-DAC

DAC 前言一、理论介绍二、DAC代码三、实验结果总结 前言 前言写个参考吧 STM32 DAC串口 一、理论介绍 DAC是数字模拟转换器&#xff08;Digital to Analog Converter&#xff09;的缩写&#xff0c;它是一种将数字信号转换为模拟信号的设备。 RC有2个通道。 DAC的初始化 #…

数据结构-线性表-应用题-2.2-5

从顺序表中删除其值在给定值s与t之间&#xff08;包括s和t&#xff0c;且s<t&#xff09;的所有元素&#xff0c;若s或t不合理或顺序表为空&#xff0c;则显示出错信息并退出运行。 从前往后扫描顺序表L&#xff0c;用k记录元素值在[s,t]的元素的个数&#xff0c;对于不在其…