深度学习-101-RAG技术之分词器和向量库和嵌入模型的简单应用

devtools/2025/2/6 17:04:06/

文章目录

  • 1 基础函数
    • 1.1 模型bert-base-chinese
    • 1.2 嵌入SemanticEmbedding
    • 1.3 向量库FaissIdx
    • 1.4 分词器工具
      • 1.4.1 TokenTextSplitter
      • 1.4.2 RecursiveCharacterTextSplitter
  • 2 FaissRetriever实现
    • 2.1 FaissRetriever
    • 2.2 应用检索
  • 3 附录
    • 3.1 异常restart automatically
    • 3.2 异常FutureWarning
    • 3.3 参考附录

1 基础函数

1.1 模型bert-base-chinese

在BERT-base-chinese这个模型中,词汇数量为21128,嵌入维度为768,每条数据长度L为512。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("./bert-base-chinese")
model = AutoModel.from_pretrained("./bert-base-chinese")sentences 

http://www.ppmy.cn/devtools/156575.html

相关文章

DeepSeek 的含金量还在上升

大家好啊,我是董董灿。 最近 DeepSeek 越来越火了。 网上有很多针对 DeepSeek 的推理测评,除此之外,也有很多人从技术的角度来探讨 DeepSeek 带给行业的影响。 比如今天就看到了一篇文章,探讨 DeepSeek 在使用 GPU 进行模型训练…

redis原理之数据结构

dict dict,哈希表,redis 所有的 key-value 都存储在里面。如果曾经学过哈希表这种数据结构,那么很容易能写出一个来,但 redis dict 考虑了更多的功能。 // 哈希表(字典)数据结构,redis 的所有键…

win编译openssl

一、perl执行脚本 1、安装perl脚本 perl安装 2、配置perl脚本 perl Configure VC-WIN32 no-asm no-shared --prefixE:\openssl-x.x.x\install二、编译openssl 1、使用vs工具编译nmake 如果使用命令行nmake编译会提示“无法打开包括文件: “limits.h”“ 等错误信息 所以…

Vant框架:助力移动端开发的利器

Vant框架:助力移动端开发的利器 在移动互联网飞速发展的今天,开发一款用户体验出色、界面美观且功能强大的移动端应用并非易事。而Vant框架,作为一款专为移动端设计的Vue.js UI组件库,凭借其轻量级、高度可定制化以及丰富的组件库…

【人工智能】掌握图像风格迁移:使用Python实现艺术风格的自动化迁移

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 图像风格迁移(Image Style Transfer)是一种基于深度学习的计算机视觉技术,通过将一张图像的内容与另一张图像的艺术风格结合,生成一幅具…

【Elasticsearch】post_filter

post_filter是 Elasticsearch 中的一种后置过滤机制,用于在查询执行完成后对结果进行过滤。以下是关于post_filter的详细介绍: 工作原理 • 查询后过滤:post_filter在查询执行完毕后对返回的文档集进行过滤。这意味着所有与查询匹配的文档都…

HTTP异步Client源码解析

我们知道Netty作为高性能通信框架,优点在于内部封装了管道的连接通信等操作,用户只需要调用封装好的接口,便可以很便捷的进行高并发通信。类似,在Http请求时,我们通过调用HttpClient,内部使用java NIO技术&…

记录pve中使用libvirt创建虚拟机

pve中创建虚拟机 首先在pve网页中创建一个linux虚拟机,我用的是debian系统,过程省略 注意虚拟机cpu类型要设置为host 检查是否支持虚拟化 ssh分别进入pve和debian虚拟机 检查cpu是否支持虚拟化 egrep --color vmx|svm /proc/cpuinfo # 结果高亮显示…