MTEB - Embedding 模型排行榜

embedded/2024/9/23 12:16:38/

文章目录

    • 关于 MTEB
    • MTEB 任务和数据集概览
    • 使用 MTEB Pythont 库
      • Installation
      • 使用


MTEB_2">关于 MTEB

MTEB : Massive Text Embedding Benchmark

  • github : https://github.com/embeddings-benchmark/mteb
  • huggingface : https://huggingface.co/spaces/mteb/leaderboard
  • paper : https://paperswithcode.com/paper/mteb-massive-text-embedding-benchmark

中文榜单(2024-05-03)

在这里插入图片描述


英文

在这里插入图片描述


MTEB__23">MTEB 任务和数据集概览

多模态标记为紫色。
在这里插入图片描述


MTEB_Pythont__28">使用 MTEB Pythont 库

Installation

pip install mteb

使用

  • Using a python script (see scripts/run_mteb_english.py and mteb/mtebscripts for more):
from mteb import MTEB
from sentence_transformers import SentenceTransformer# Define the sentence-transformers model name
model_name = "average_word_embeddings_komninos"
# or directly from huggingface:
# model_name = "sentence-transformers/all-MiniLM-L6-v2"model = SentenceTransformer(model_name)
evaluation = MTEB(tasks=["Banking77Classification"])
results = evaluation.run(model, output_folder=f"results/{model_name}")

  • 使用命令行
mteb --available_tasksmteb -m sentence-transformers/all-MiniLM-L6-v2 \-t Banking77Classification  \--verbosity 3# if nothing is specified default to saving the results in the results/{model_name} folder
  • Using multiple GPUs in parallel can be done by just having a custom encode function that distributes the inputs to multiple GPUs like e.g. here or here.

伊织 2024-05-03(五)


http://www.ppmy.cn/embedded/30850.html

相关文章

Linux命令--查找占磁盘空间最大的文件

原文网址:Linux命令--查找占磁盘空间最大的文件-CSDN博客 简介 本文介绍Linux怎样查找占磁盘空间最大的文件。 1.找到占空间最大的分区 命令 df -h 结果 2.查找分区里最大的文件 法1:直接查找最大的文件 sudo find my_folder -type f -exec du -…

在线教程|零门槛部署 Llama 3,70B 版本只占 1.07G 存储空间,新用户免费体验 8B 版本

4 月 18 日,Meta 宣布开源 Llama 3,这个号称「迄今为止最好的开源大模型」一经发布,立刻引爆科技圈! 发布当天恰逢斯坦福大学教授、AI 顶尖专家吴恩达的生日,作为 AI 开源倡导者,他激动地发文表示&#xff…

基于51单片机的LCD1602显示的proteus仿真(附源码)

文章目录 一、LCD1602模块简介1.1 特点1.2 结构及其引脚示意图1.3 基本操作时序1.4 指令集1.5 连接方式1.直接控制方式2.间接控制方式 二、LCD1602显示仿真图仿真程序main.clcd.clcd.h 三、总结 一、LCD1602模块简介 1.1 特点 LCD1602是一种工业字符型液晶,能够同…

论文研读|针对文生图模型的AIGC检测

前言:人工智能生成内容的鉴别(AIGC检测)算是当前的研究热点之一,本篇文章介绍几篇针对文生图模型的 AIGC 检测相关工作。 相关文章:AIGC溯源相关研究详见此篇文章 目录 1. Towards Universal Fake Image Detectors tha…

【百度Apollo】探索自动驾驶:小白教学如何使用 Dreamview 播放数据包

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 引入一、Dreamview 简介二、使用 Dreamview 具体步骤步骤一:进入 Apollo Docker 环境步骤二&#xff…

ArrayList常考面试题

在Java面试中,关于ArrayList的面试题可能涵盖多个方面,包括其数据结构、扩容机制、性能特点等。以下是一些常见的ArrayList面试题: ArrayList的数据结构是什么? ArrayList的底层数据结构是动态数组。它是一个可以动态调整大小的数…

32.Docker认识

Docker介绍 Docker是一个快速交付应用,运行应用的技术。 1.可以将程序、依赖、运行环境一起打包为一个镜像,可以迁移到任意Linux操作系统。 2.运行时利用沙箱机制行程隔离容器,各个应用互不干扰。 3.启动、移除都可以通过一行命令完成&am…

基于SkyEye运行Android——应用最为广泛的移动设备操作系统

01.Android简介 Android(安卓)是一种基于Linux内核(不包含GNU组件)的开源操作系统,最初由安迪鲁宾开发,主要支持手机。2005年8月由Google收购注资;2007年11月,Google与84家硬件制造…