大语言模型通用能力排行榜(2024年10月8日更新)

devtools/2024/11/17 6:48:28/

数据来源SuperCLUE

榜单数据为通用能力排行榜

排名

模型名称

机构

总分

理科

文科

Hard

使用方式

发布日期

-

o1-preview

OpenAI

75.85

86.07

76.6

64.89

API

2024年11月8日

-

Claude 3.5 Sonnet(20241022)

Anthropic

70.88

82.48

76.56

53.6

POE

2024年11月8日

-

ChatGPT-4o-latest

OpenAI

70.85

84.65

77.1

50.8

API

2024年11月8日

🏅

GLM-4-Plus

智谱AI

69.64

81.41

76.44

51.08

API

2024年11月8日

🏅

SenseChat 5.5

商汤

69

81.17

76.67

49.16

API

2024年11月8日

🏅

AndesGPT-2.0

OPPO

68.91

81.46

76.61

48.64

API

2024年11月8日

🏅

Qwen2.5-72B-Instruct

阿里巴巴

68.9

83.12

76.96

46.64

API

2024年11月8日

-

Claude 3.5 Sonnet(20240620)

Anthropic

68.23

81.68

76.54

46.48

poe

2024年11月8日

-

Gemini-1.5-Pro-002

Google

68.19

80.42

76.32

47.82

API

2024年11月8日

-

Qwen-max-0919

阿里巴巴

68

83.03

76.5

44.48

API

2024年11月8日

-

GPT-4-Turbo-2024-04-09

OpenAI

67.48

80.78

74.85

46.82

API

2024年11月8日

🥈

Hunyuan-Turbo

腾讯

67.35

81.47

76.84

43.74

API

2024年11月8日

🥈

360gpt2-pro

360

67.19

82.95

74.94

43.68

API

2024年11月8日

🥈

Step-2-16k

阶跃星辰

67.02

80.52

76.65

43.91

API

2024年11月8日

🥈

DeepSeek-V2.5

深度求索

66.87

81.69

75.42

43.5

API

2024年11月8日

🥈

Doubao-pro-0828

字节跳动

66.43

79.98

75.1

44.22

API

2024年11月8日

🥉

Baichuan4

百川智能

66.28

81.81

75.94

41.1

API

2024年11月8日

🥉

山海大模型4.0

云知声

66.26

80.05

75.38

43.34

API

2024年11月8日

🥉

TeleChat2-Large

TeleAI

66.23

78.85

75.54

44.28

API

2024年11月8日

-

Llama-3.1-405B-Instruct

Meta

65.84

80.54

71.53

45.46

API

2024年11月8日

4

Ernie-4.0-turbo-8k-preview

百度

64.93

78.69

74.4

41.7

API

2024年11月8日

-

GPT-4o-mini

OpenAI

64.85

79.84

73.24

41.46

API

2024年11月8日

4

Moonshot(kimi)

月之暗面

63.93

74.37

75.08

42.34

网页

2024年11月8日

5

Sky-Chat-3.0

昆仑万维

62.64

74.32

75.46

38.12

API

2024年11月8日

5

TeleChat2-35B

TeleAI

62.46

74.07

74.05

39.26

模型

2024年11月8日

-

Llama-3.1-70B-Instruct

Meta

61.62

77.52

69.64

37.7

API

2024年11月8日

6

Qwen2.5-7B-Instruct

阿里巴巴

60.61

74.62

73.28

33.92

API

2024年11月8日

-

Llama-3.2-90B-Instruct

Meta

60.58

75.89

69

36.84

API

2024年11月8日

7

讯飞星火V4.0

科大讯飞

59.4

72.49

71.55

34.16

API

2024年11月8日

8

GLM-4-9B-Chat

智谱AI

56.83

69.22

71.94

29.32

模型

2024年11月8日

-

Gemma-2-9b-it

Google

55.48

67.78

69.62

29.02

模型

2024年11月8日

9

MiniCPM3-4B

面壁智能

53.16

63.04

69.87

26.56

模型

2024年11月8日

-

Llama-3.1-8B-Instruct

Meta

51.42

63.27

65.3

25.69

API

2024年11月8日

10

Yi-1.5-9B-Chat-16K

零一万物

51.37

59.2

67.86

27.06

模型

2024年11月8日

-

Llama-3.2-11B-Instruct

Meta

50.61

63.1

64.02

24.72

API

2024年11月8日

11

Yi-1.5-6B-Chat

零一万物

48.69

57.03

63.89

25.16

模型

2024年11月8日

12

Qwen2.5-1.5B-Instruct

阿里巴巴

43.92

46.14

64.54

21.1

API

2024年11月8日

-

Gemma-2-2b-it

Google

42.25

43.36

63.72

19.67

模型

2024年11月8日

-

Phi-3-Mini-4K-Instruct

微软

39.98

52.28

44.75

22.9

模型

2024年11月8日

-

Mistral-7B-Instruct-v0.3

Mistral AI

37.11

41.06

51.21

19.05

模型

2024年11月8日

13

Baichuan2-7B-Chat

百川智能

33.59

28.46

58.09

14.22

模型

2024年11月8日

13

Qwen2.5-0.5B-Instruct

阿里巴巴

32.85

30.53

54.13

13.9

API

2024年11月8日

13

RWKV-6-World-7B

RWKV

32.76

27.46

58.05

12.76

模型

2024年11月8日


http://www.ppmy.cn/devtools/134636.html

相关文章

hbase未来的发展趋势

HBase 作为一个开源的分布式、可伸缩的 NoSQL 数据库,依托于 Hadoop 生态系统,以处理海量结构化数据为优势。随着大数据技术的发展,HBase 的发展趋势主要体现在以下几个方面: 1. 与云计算深度集成 随着企业向云迁移,HBase 也正在越来越多地部署在云环境中。云服务商(如 …

C#获取视频第一帧_腾讯云媒体处理获取视频第一帧

一、 使用步骤: 第一步、腾讯云开启万象 第二步、安装Tencent.QCloud.Cos.Sdk 包 第三步、修改 腾讯云配置 图片存储目录配置 第四步、执行获取图片并保存 二、封装代码 using System.Text; using System.Threading.Tasks;using COSXML.Model.CI; using COSXML.A…

lua实现雪花算法

lua实现雪花算法 雪花算法介绍组成部分优点缺点 代码示例 雪花算法介绍 雪花算法(Snowflake Algorithm)是一种用于生成唯一ID的分布式生成算法,最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID,这些ID通…

esp8266的使能多链接,使能单链接是社么意思 AT+CIPMUX

在ESP8266的AT指令集中,ATCIPMUX指令用于设置模块的连接模式,即是否支持多个TCP/UDP连接。具体来说: 使能多链接(Multiplexed Connection):当通过ATCIPMUX1设置时,ESP8266模块进入多连接模式。…

leetcode hot100【LeetCode 5.最长回文子串】java实现

LeetCode 5.最长回文子串 题目描述 给定一个字符串 s&#xff0c;找到 s 中最长的回文子串。 示例 1: 输入: s "babad" 输出: "bab" 解释: "aba" 也是一个有效答案。示例 2: 输入: s "cbbd" 输出: "bb"说明: 1 <…

flink实战 -- flink SQL 实现列转行

在 SQL 任务里面经常会遇到一列转多行的需求,下面就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求 原始数据格式如下: namedatatest[{"content_type":"flink","url":"111"},{"content_type&quo…

vcenter service基本异常处理

服务&#xff1a;vcenter service 版本&#xff1a; 7.0.3 问题描述&#xff1a;无法访问vcenter ui 排障思路&#xff1a; 1. 登入vcenter所在服务器执行基础排查&#xff1a;内存、cpu、磁盘、网络等&#xff0c;发现磁盘日志目录已经爆满&#xff0c;删除180天前的日志恢…

智能算法引领金融创新:正大科技的智能分析框架

金融行业的智能化浪潮&#xff0c;推动了算法在投资分析中的深度应用。正大科技依托智能算法&#xff0c;构建了一套涵盖数据采集、分析和优化的智能分析框架&#xff0c;帮助投资者在瞬息万变的市场中作出更明智的决策。本文将解析正大科技如何利用智能算法实现市场洞察&#…