【大语言模型_5】xinference部署embedding模型和rerank模型

server/2025/3/19 2:46:15/

一、安装xinference

pip install xinference

二、启动xinference

./xinference-local  --host=0.0.0.0  --port=5544

三、注册本地模型

1、注册embedding模型
curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{"model_type": "embedding","model_name": "bce-embedding-base_v1",  "model_uid": "bce-embedding-base_v1",   "model_path": "/root/embed_rerank/bce-embedding-base_v1/" 
}'验证:
curl -X POST "http://localhost:5544/v1/embeddings" \
-H "Content-Type: application/json" \
-d '{"model": "bce-embedding-base_v1","input": ["需要嵌入的文本1", "这是第二个句子"]
}'2、注册rerank模型curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{"model_type": "rerank",              "model_name": "bce-reranker-base_v1",     "model_uid": "bce-reranker-base_v1",   "model_path": "/root/embed_rerank/bce-reranker-base_v1" 
}'验证
curl -X POST "http://localhost:5544/v1/rerank" \
-H "Content-Type: application/json" \
-d '{"model": "bge-reranker-v2-m3","query": "What is Python?","documents": ["Python is a programming language.","Java is another language.","Python is used for web development."]
}'3、执行./xinference list 查看运行模型

四、删除模型

curl -X DELETE "http://localhost:5544/v1/models/bge-reranker-v2-m3"

五、备注

1、在cpu运行
  • 服务器有显卡但是选择用cpu加载

             启动xinference之前设置

              export CUDA_VISIBLE_DEVICES=""

  • 服务器无显卡会自动在cpu加载模型

2、在gpu运行

启动服务器前设置环境变量

export CUDA_VISIBLE_DEVICES=""

curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{"model_type": "embedding","model_name": "bce-embedding-base_v1",  "model_uid": "bce-embedding-base_v1",   "model_path": "/root/zml/embed_rerank/bce-embedding-base_v1/" "gpu_idx": 1"n_gpu" : 1
}'备注:
gpu_idx :选用的显卡index
n_gpu:选定的显卡总张数


http://www.ppmy.cn/server/176116.html

相关文章

apk反编译Apktool.jar

Apktool 快速使用教程 先去下载:apktool 1. 准备工作 将 apktool_2.11.1.jar 和 apk.apk放在同一目录,例如F:\JLM。 2. 反编译 APK 在 F:\JLM\ 目录下运行: F:\JLM>java -jar apktool_2.11.1.jar d apk.apk -o test执行过程&#xf…

低空经济腾飞:无人机送货、空中通勤,未来已来

近年来,低空经济逐渐成为社会关注的焦点。从无人机送货到“空中的士”,再到飞行培训的火热进行,低空经济正迎来前所未有的发展机遇。随着技术进步和政策支持,这一曾经看似遥远的未来场景,正逐步变为现实。 低空经济如何…

每日定投40刀BTC(9)20250312 - 20250315

定投截图 区块链相关新闻 BTC价格一度跌破8万美元 3月14日,BTC价格盘中跌破8万美元,最低报79,954.60美元,日内下跌1.34%,市场情绪一度转为谨慎 BTC价格波动背后的原因 经济环境变化、市场情绪波动以及政策监管动态是导致BTC价…

Redis监控:从睁眼瞎到千里眼的进化史

各位在Redis迷雾中摸黑的探险家们!今天我们要给Redis装上"天眼系统"——从连自己内存爆了都不知道的睁眼瞎,进化到连每秒哪个键被摸了几次都门儿清的监控狂魔!准备好迎接《Redisの楚门世界》了吗?👁️ 第一幕…

《灵珠觉醒:从零到算法金仙的C++修炼》卷三·天劫试炼(40)翻天印压回文串 - 最长回文子序列(区间DP)

《灵珠觉醒:从零到算法金仙的C++修炼》卷三天劫试炼(40)翻天印压回文串 - 最长回文子序列(区间DP) 哪吒在数据修仙界中继续他的修炼之旅。这一次,他来到了一片神秘的回文森林,森林中有一本古老的翻天印,印身闪烁着神秘的光芒。森林的入口处有一块巨大的石碑,上面刻着…

卷积神经网络(CNN)之 EfficientNet

在深度学习领域,模型的计算效率与性能之间的平衡一直是一个核心挑战。随着卷积神经网络(CNN)在图像分类、目标检测等任务中取得显著成果,模型的复杂度和计算需求也急剧增加。2019年,Google Research 提出的 EfficientN…

centos Supported Java versions are: [17, 21]

在 CentOS 系统中,支持的 Java 版本取决于你使用的 CentOS 版本以及你所使用的 Oracle JDK 或 OpenJDK 的版本。截至我所知的信息,截至2023年,CentOS 7 和 CentOS 8 都已经停止官方支持,并被各自的替代版本取代,即 Cen…

StarRocks SQL使用与MySql的差异及规范注意事项

StarRocks为OLAP列存数据库,擅长复杂分析查询,需显式定义分区/分桶键;MySQL为OLTP行存数据库,适合事务处理。SQL差异:StarRocks支持批量写入(避免单行INSERT)、物化视图优化,禁用LIM…