深度学习-101-RAG技术之分词器和向量库和嵌入模型的简单应用

devtools/2025/2/6 17:04:06/

文章目录

1 基础函数
- 1.1 模型bert-base-chinese
- 1.2 嵌入SemanticEmbedding
- 1.3 向量库FaissIdx
- 1.4 分词器工具
- - 1.4.1 TokenTextSplitter
  - 1.4.2 RecursiveCharacterTextSplitter
2 FaissRetriever实现
- 2.1 FaissRetriever
- 2.2 应用检索
3 附录
- 3.1 异常restart automatically
- 3.2 异常FutureWarning
- 3.3 参考附录

1 基础函数

1.1 模型bert-base-chinese

在BERT-base-chinese这个模型中，词汇数量为21128，嵌入维度为768，每条数据长度L为512。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("./bert-base-chinese")
model = AutoModel.from_pretrained("./bert-base-chinese")sentences

http://www.ppmy.cn/devtools/156575.html

DeepSeek 的含金量还在上升

大家好啊，我是董董灿。最近 DeepSeek 越来越火了。网上有很多针对 DeepSeek 的推理测评，除此之外，也有很多人从技术的角度来探讨 DeepSeek 带给行业的影响。比如今天就看到了一篇文章，探讨 DeepSeek 在使用 GPU 进行模型训练…

redis原理之数据结构

dict dict，哈希表，redis 所有的 key-value 都存储在里面。如果曾经学过哈希表这种数据结构，那么很容易能写出一个来，但 redis dict 考虑了更多的功能。 // 哈希表（字典）数据结构，redis 的所有键…

win编译openssl

一、perl执行脚本 1、安装perl脚本 perl安装 2、配置perl脚本 perl Configure VC-WIN32 no-asm no-shared --prefixE:\openssl-x.x.x\install二、编译openssl 1、使用vs工具编译nmake 如果使用命令行nmake编译会提示“无法打开包括文件: “limits.h”“ 等错误信息所以…

Vant框架：助力移动端开发的利器

Vant框架：助力移动端开发的利器在移动互联网飞速发展的今天，开发一款用户体验出色、界面美观且功能强大的移动端应用并非易事。而Vant框架，作为一款专为移动端设计的Vue.js UI组件库，凭借其轻量级、高度可定制化以及丰富的组件库…

【人工智能】掌握图像风格迁移：使用Python实现艺术风格的自动化迁移

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界图像风格迁移（Image Style Transfer）是一种基于深度学习的计算机视觉技术，通过将一张图像的内容与另一张图像的艺术风格结合，生成一幅具…

【Elasticsearch】post_filter

post_filter是 Elasticsearch 中的一种后置过滤机制，用于在查询执行完成后对结果进行过滤。以下是关于post_filter的详细介绍： 工作原理 • 查询后过滤：post_filter在查询执行完毕后对返回的文档集进行过滤。这意味着所有与查询匹配的文档都…

HTTP异步Client源码解析

我们知道Netty作为高性能通信框架，优点在于内部封装了管道的连接通信等操作，用户只需要调用封装好的接口，便可以很便捷的进行高并发通信。类似，在Http请求时，我们通过调用HttpClient，内部使用java NIO技术&…

记录pve中使用libvirt创建虚拟机

pve中创建虚拟机首先在pve网页中创建一个linux虚拟机，我用的是debian系统，过程省略注意虚拟机cpu类型要设置为host 检查是否支持虚拟化 ssh分别进入pve和debian虚拟机检查cpu是否支持虚拟化 egrep --color vmx|svm /proc/cpuinfo # 结果高亮显示…