【大语言模型_2】mindie部署deepseek模型

news/2025/2/22 10:14:30/

一、模型下载

https://modelscope.cn/home

下载地址:https://modelscope.cn/home

二、服务器驱动/固件安装

驱动/固件下载地址:
https://www.hiascend.com/hardware/firmware-drivers/community?product=1&model=23&cann=All&driver=1.0.21.alpha驱动/固件安装地址:
https://www.hiascend.com/document/detail/zh/Atlas%20200I%20A2/24.1.0/ep/installationguide/Install_10.html安装完成后执行npu-smi info验证

三、mindie推理框架下载

下载地址:
https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f

四、本地部署

1、修改模型配置文件
修改模型config.json权限
进入到模型根目录
chmod 640 config.json

不修改启动模型会报错

2、修改模型config.json文件

修改模型config.json

torch_dtype”: bfloat16  ------更改为 torch_dtype”: float16 

3、启动镜像
docker run --name zml_mindie -it -d --net=host --shm-size=500g \--privileged \-w /home \--entrypoint=bash \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /usr/local/dcmi:/usr/local/dcmi \-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \-v /usr/local/sbin:/usr/local/sbin \-v /root/xxx/mindformer_share/:/home/xxx_share \-v /etc/hccn.conf:/etc/hccn.conf \-v /usr/share/zoneinfo/Asia/Shanghai:/etc/localtime \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:1.0.RC3-300I-Duo-arm64  

进入容器,修改配置文件

修改mindieieserver配置文件
vi /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json{29.     "Version" : "1.0.0",30.     "LogConfig" :31.     {32.         "logLevel" : "Info",33.         "logFileSize" : 20,34.         "logFileNum" : 20,35.         "logPath" : "logs/mindservice.log"36.     },37.  38.     "ServerConfig" :39.     {40.         "ipAddress" : "192.168.202.13",  中文解释:业务面接口绑定IP地址。41.         "managementIpAddress" : "127.0.0.2",42.         "port" : 25010,  中文解释:端口号43.         "managementPort" : 1026,44.         "metricsPort" : 1027,45.         "allowAllZeroIpListening" : false,46.         "maxLinkNum" : 1000,47.         "httpsEnabled" : false, 中文解释:是否开启HTTPS安全通信48.         "fullTextEnabled" : false,49.         "tlsCaPath" : "security/ca/",50.         "tlsCaFile" : ["ca.pem"],51.         "tlsCert" : "security/certs/server.pem",52.         "tlsPk" : "security/keys/server.key.pem",53.         "tlsPkPwd" : "security/pass/key_pwd.txt",54.         "tlsCrl" : "security/certs/server_crl.pem",55.         "managementTlsCaFile" : ["management_ca.pem"],56.         "managementTlsCert" : "security/certs/management/server.pem",57.         "managementTlsPk" : "security/keys/management/server.key.pem",58.         "managementTlsPkPwd" : "security/pass/management/key_pwd.txt",59.         "managementTlsCrl" : "security/certs/management/server_crl.pem",60.         "kmcKsfMaster" : "tools/pmt/master/ksfa",61.         "kmcKsfStandby" : "tools/pmt/standby/ksfb",62.         "inferMode" : "standard",63.         "interCommTLSEnabled" : false,64.         "interCommPort" : 1121,65.         "interCommTlsCaFile" : "security/grpc/ca/ca.pem",66.         "interCommTlsCert" : "security/grpc/certs/server.pem",67.         "interCommPk" : "security/grpc/keys/server.key.pem",68.         "interCommPkPwd" : "security/grpc/pass/key_pwd.txt",69.         "interCommTlsCrl" : "security/certs/server_crl.pem",70.         "openAiSupport" : "vllm"71.     },72.  73.     "BackendConfig" : {74.         "backendName" : "mindieservice_llm_engine",75.         "modelInstanceNumber" : 1,76.         "npuDeviceIds" : [[0,1,2,3]],  中文解释:启动哪几张卡77.         "tokenizerProcessNumber" : 8,78.         "multiNodesInferEnabled" : false,79.         "multiNodesInferPort" : 1120,80.         "interNodeTLSEnabled" : true,81.         "interNodeTlsCaFile" : "security/grpc/ca/ca.pem",82.         "interNodeTlsCert" : "security/grpc/certs/server.pem",83.         "interNodeTlsPk" : "security/grpc/keys/server.key.pem",84.         "interNodeTlsPkPwd" : "security/grpc/pass/mindie_server_key_pwd.txt",85.         "interNodeTlsCrl" : "security/grpc/certs/server_crl.pem",86.         "interNodeKmcKsfMaster" : "tools/pmt/master/ksfa",87.         "interNodeKmcKsfStandby" : "tools/pmt/standby/ksfb",88.         "ModelDeployConfig" :89.         {90.             "maxSeqLen" : 10000,     中文解释:模型支持最大序列长度91.             "maxInputTokenLen" : 10000,  中文解释:输入token id最大长度92.             "truncation" : false,93.             "ModelConfig" : [94.                 {95.                     "modelInstanceType" : "Standard",96.                     "modelName" : "TopASK",  中文解释:启动模型名称97.                     "modelWeightPath" : "/home/xxx_share/DeepSeek-R1-Distill-Qwen-14B",    中文解释:模型路径98.                     "worldSize" : 4,    中文解释:启动几张推理卡99.                     "cpuMemSize" : 5,
100.                     "npuMemSize" : -1,
101.                     "backendType" : "atb"
102.                 }
103.             ]
104.         },
105.  
106.         "ScheduleConfig" :
107.         {
108.             "templateType" : "Standard",
109.             "templateName" : "Standard_LLM",
110.             "cacheBlockSize" : 128,
111.  
112.             "maxPrefillBatchSize" : 50,
113.             "maxPrefillTokens" : 18192,  中文解释:模型推理过程中,prefil阶段能够处理最大token数量。
114.             "prefillTimeMsPerReq" : 150,
115.             "prefillPolicyType" : 0,
116.  
117.             "decodeTimeMsPerReq" : 50,
118.             "decodePolicyType" : 0,
119.  
120.             "maxBatchSize" : 200,
121.             "maxIterTimes" : 512,
122.             "maxPreemptCount" : 0,
123.             "supportSelectBatch" : false,
124.             "maxQueueDelayMicroseconds" : 5000
125.         }
126.     }
127. }参数详情文档:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0285.html
4、启动服务

cd /usr/local/Ascend/mindie/latest/mindie-service/
./bin/mindieservice_daemon


http://www.ppmy.cn/news/1574128.html

相关文章

阿里云 ACS:高效、弹性、低成本的容器计算解决方案

阿里云的 容器计算服务(Alibaba Cloud Container Service, ACS) 是一种 Serverless 容器计算 解决方案,提供高度弹性、低成本、易管理的 Kubernetes(K8s)容器运行环境。用户无需关注底层服务器资源,而是直接…

STM32 HAL库UART串口数据接收实验

1. 实验目标 掌握STM32 HAL库的UART配置方法 实现通过UART接收数据并处理 使用中断方式接收数据 用串口调试工具发送数据1或0,输入为1时板载LED亮,输入为0板载LED熄灭。 2. 硬件准备 STM32开发板(STM32F103C8T6) USB转TTL模块…

【目标检测】【YOLOv4】YOLOv4:目标检测的最佳速度与精度

YOLOv4:目标检测的最佳速度与精度 0.论文摘要 有许多特征被认为可以提高卷积神经网络(CNN)的准确性。需要在大规模数据集上对这些特征的组合进行实际测试,并对结果进行理论上的验证。某些特征仅适用于特定模型和特定问题&#…

基于YOLO11深度学习的糖尿病视网膜病变检测与诊断系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

day56 第十一章:图论part06

108.冗余连接 注意init初始化 改进&#xff1a; 其实只有一条边冗余&#xff0c;改为&#xff0c;如果两条边在同一个集合里&#xff0c;就输出&#xff0c;不然加入。 #include <iostream> #include <vector> using namespace std;int n 1005; vector<int>…

共筑金融数字化新生态!YashanDB与恒生电子完成兼容互认证

近日&#xff0c;深圳计算科学研究院的崖山数据库系统YashanDB与恒生电子股份有限公司HUNDSUN资产估值与会计核算软件V6.0成功完成了兼容性互认证。结果显示&#xff0c;双方产品完全兼容&#xff0c;稳定运行&#xff0c;可共同为银行、证券、基金、保险、信托等金融机构提供稳…

stm32高级TIM的常用功能

介绍 STM32 高级定时器的刹车死区、互补输出、输入捕获 的基本资料。 1. 刹车死区&#xff08;Brake Dead Time&#xff09; 高级定时器&#xff08;如 TIM1、TIM8&#xff09;支持 刹车死区&#xff08;Brake Dead Time&#xff09; 功能&#xff0c;通常用于电机控制和其他…

Spring全面讲解(无比详细)

1、Spring框架体系 2、 IOC 2.1 什么是IOC 2.3 基于 配置文件的di实现 2.3.1 什么是di 2.3.2 入门案例 2.3.3 环境搭建 2.3.4 案例总结 2.3.5 简单类型属性的赋值&#xff08;set注入&#xff09; 2.3.6 非简单类型属性的赋值&#xff08;set注入&#xff09; 2.3.7 构造注入 …