使用 optimum 使得 embedding 生成速度提高 5 倍（和原生 sentence transformer 模型对比）

devtools/2024/9/23 18:20:58/

今天偶然刷到了

Accelerate Sentence Transformers with Hugging Face Optimum (philschmid.de)

看到可以是用 optimum 调用 onnx API 加速 embedding 模型在 CPU 上的推理速度，而且相比之前：

使用 onnx 使得 embedding 生成速度提高 4 倍（和原生 sentence transformer 模型对比）-CSDN博客

调用方式更为简单，就研究了下如何在 GPU 上加速。

结果

[Optimum] OnnxModel Runtime gpu Inference time = 3.22 ms
Sentence Transformer gpu Inference time = 17.63 ms

可以看到使用 optimum 推理速度，还会更快些。

完整的代码可以查看：

github.com/amulil/vector_by_onnxmodel

http://www.ppmy.cn/devtools/9892.html

Linux部署Coturn以及关于打洞的思考

目录 Coturn介绍部署架构图 2.1 局域网——无NAT映射 2.2 NAT网Corturn安装步骤验证 4.1 局域网——无NAT映射 4.2 NAT网 4.2.1 Cywin安装步骤 4.2.2 Coturn安装步骤 4.2.3 验证引言下文部署架构图为Corturn为解决互联网NAT环境下“找朋友”的部署架构，也是Coturn发挥其价值…

【计算机毕业设计】微信小程序：MHK自学平台的设计与实现——后附源码

🎉**欢迎来到我的技术世界！**🎉 📘 博主小档案： 一名来自世界500强的资深程序媛，毕业于国内知名985高校。 🔧 技术专长： 在深度学习任务中展现出卓越的能力，包括但不限于…

串联超前及对应matlab实现

串联超前校正它的本质是利用相角超前的特性提高系统的相角裕度。传递函数为：下面将以一个实际的例子，使用matlab脚本，实现其校正后的相位裕度≥60。

quill富文本编辑器中文汉化和高度设置操作

quill文档：Installation - Quill Rich Text Editor quill仓库：GitHub - quilljs/quill: Quill is a modern WYSIWYG editor built for compatibility and extensibility. quill默认是英文的，并且高度也是只有一行，所以想自定义高…

设计模式之适配器模式

1、详细介绍适配器模式（Adapter Pattern）是一种结构型设计模式，它允许将一个类的接口（方法签名）转换为另一种接口，使原本因接口不兼容而无法一起工作的类能够协同工作。适配器模式主要解决接口不匹配的问题…

算法刷题记录 Day48 Date: 2024.04.16 lc 583. 两个字符串的删除操作 class Solution { public:int minDistance(string word1, string word2) {// dp[i][j]表示使word1[0,i]和word2[0,j]相同所需的最小步数。int m word1.size();int n word2.size();vector<vector<…

component-全局透明遮罩层与点击遮罩层关闭

1.创建Overlay.vue的全局组件或子组件，用于显示透明遮罩层。 <template><div class"overlay" click"closeOverlay"></div></template><script>export default {methods: {closeOverlay() {// 子组件调用父组件方…

[python3] 字符串匹配的`多模式匹配`算法

在Python 3中，你可以使用第三方库ahocorasick来实现Aho-Corasick算法。Aho-Corasick算法是一种用于字符串匹配的多模式匹配算法，可以高效地在一个文本中搜索多个关键词。首先，你需要安装ahocorasick库。你可以使用pip来进行安装&#xff1a…

使用 optimum 使得 embedding 生成速度提高 5 倍（和原生 sentence transformer 模型对比）

结果

相关文章