使用 optimum 使得 embedding 生成速度提高 5 倍(和原生 sentence transformer 模型对比)

devtools/2024/9/23 18:20:58/

今天偶然刷到了

Accelerate Sentence Transformers with Hugging Face Optimum (philschmid.de)

看到可以是用 optimum 调用 onnx API 加速 embedding 模型在 CPU 上的推理速度,而且相比之前:

使用 onnx 使得 embedding 生成速度提高 4 倍(和原生 sentence transformer 模型对比)-CSDN博客

调用方式更为简单,就研究了下如何在 GPU 上加速。

结果

[Optimum] OnnxModel Runtime gpu Inference time = 3.22 ms
Sentence Transformer gpu Inference time = 17.63 ms

可以看到使用 optimum 推理速度,还会更快些。

完整的代码可以查看:

github.com/amulil/vector_by_onnxmodel


http://www.ppmy.cn/devtools/9892.html

相关文章

Linux部署Coturn以及关于打洞的思考

目录 Coturn介绍部署架构图 2.1 局域网——无NAT映射 2.2 NAT网Corturn安装步骤验证 4.1 局域网——无NAT映射 4.2 NAT网 4.2.1 Cywin安装步骤 4.2.2 Coturn安装步骤 4.2.3 验证引言 下文部署架构图为Corturn为解决互联网NAT环境下“找朋友”的部署架构,也是Coturn发挥其价值…

【计算机毕业设计】微信小程序:MHK自学平台的设计与实现——后附源码

🎉**欢迎来到我的技术世界!**🎉 📘 博主小档案: 一名来自世界500强的资深程序媛,毕业于国内知名985高校。 🔧 技术专长: 在深度学习任务中展现出卓越的能力,包括但不限于…

串联超前及对应matlab实现

串联超前校正它的本质是利用相角超前的特性提高系统的相角裕度。传递函数为:下面将以一个实际的例子,使用matlab脚本,实现其校正后的相位裕度≥60。

quill富文本编辑器中文汉化和高度设置操作

quill文档:Installation - Quill Rich Text Editor quill仓库:GitHub - quilljs/quill: Quill is a modern WYSIWYG editor built for compatibility and extensibility. quill默认是英文的,并且高度也是只有一行,所以想自定义高…

设计模式之适配器模式

1、详细介绍 适配器模式(Adapter Pattern)是一种结构型设计模式,它允许将一个类的接口(方法签名)转换为另一种接口,使原本因接口不兼容而无法一起工作的类能够协同工作。适配器模式主要解决接口不匹配的问题…

算法刷题记录 Day48

算法刷题记录 Day48 Date: 2024.04.16 lc 583. 两个字符串的删除操作 class Solution { public:int minDistance(string word1, string word2) {// dp[i][j]表示使word1[0,i]和word2[0,j]相同所需的最小步数。int m word1.size();int n word2.size();vector<vector<…

component-全局透明遮罩层与点击遮罩层关闭

1.创建Overlay.vue的全局组件或子组件&#xff0c;用于显示透明遮罩层。 <template><div class"overlay" click"closeOverlay"></div></template><script>export default {methods: {closeOverlay() {// 子组件调用父组件方…

[python3] 字符串匹配的`多模式匹配`算法

在Python 3中&#xff0c;你可以使用第三方库ahocorasick来实现Aho-Corasick算法。Aho-Corasick算法是一种用于字符串匹配的多模式匹配算法&#xff0c;可以高效地在一个文本中搜索多个关键词。 首先&#xff0c;你需要安装ahocorasick库。你可以使用pip来进行安装&#xff1a…