大模型学习笔记 - 第一期 - Milvus向量数据库

devtools/2025/1/21 16:59:47/

大模型学习笔记 - 向量数据库

目录

  • 大模型学习笔记 - 向量数据库
  • 传统文字检索(无嵌入)面临的困境
    • 1. 用户和商户表述差异
    • 2. 不同语种的表述差异
    • 3. 不同背景下的音译表述差异
  • 向量检索
    • 向量化服务
  • 参考

传统文字检索(无嵌入)面临的困境

1. 用户和商户表述差异

​ 如果商户维护了一个名为"带宠物"的设施服务标签,如果有一部分用户的输入是"能够带宠物",相关的设施服务和酒店就无法被搜索到。

在这里插入图片描述

用户和商户表述差异示例图

2. 不同语种的表述差异

  • 当语种不同的时候,相同意思的搜索可能检测不到。

在这里插入图片描述

不同语种的表述差异示例图

3. 不同背景下的音译表述差异

  • 由于音译表述的差异,用户可能使用不同的拼写或注音来搜索同一个词或短语,如果搜索引擎无法正确理解用户的音译表述,用户换一种音译翻译词搜索就无法找到相应的结果。

在这里插入图片描述

不同背景下的音译表述差异示例图

向量检索

  • 对于上述的这些问题,通常尝试的是对一些词的额外可能会搜索的词也进行维护(也就是各类同义词等等),但是这样的工程量非常大,所以想着尝试一些其他方式。
  • 通过上面的问题分析,可以看到,携程酒店搜索面临着泛化召回和模糊召回的场景需求。为了能够满足需求,团队考虑了使用向量查询来帮助实现更准确的搜索。向量查询是一种基于向量空间模型的信息检索方法,其基本思想是将查询和文档表示为向量,通过计算它们之间的相似度来确定匹配程度,以此来召回与查询最相关的文档。

在这里插入图片描述

向量检索的测试结果
  • 通过上面的一些测试示例,可以发现,对于计算向量之间的距离(相似度)等方式进行检索,可以做到比较精准的查询,哪怕表述存在不同。

向量化服务

向量化服务主要包含三个方面的工作,即在线向量服务、实体数据离线向量化和向量化召回服务。

在线向量服务:通过文本在线向量化服务,用户可以将文本数据转换为数值向量表示,从而方便进行文本相似度计算等任务。使用的是 multilingual-e5 预训练的文本向量模型,可以直接使用这些模型进行文本向量化,无需自行训练。

实体数据离线向量化:该服务将实体数据转化为向量形式并做持久化,以便后续的向量检索和召回使用。

在这里插入图片描述

向量的离线存储示例

向量化召回服务:向量化召回服务会对召回的向量会进行相关的依赖检查,确保召回的实体满足业务需求。最终,该服务会返回 TOPK 个最相似的满足依赖检查的实体。

在这里插入图片描述

用户使用召回示例

参考

用户案例分析:用户案例|向量引擎在携程酒店搜索中的应用场景和探索 - Zilliz 向量数据库

b站视频:大模型落地,你必须要懂的Milvus向量数据库_哔哩哔哩_bilibili


http://www.ppmy.cn/devtools/152384.html

相关文章

在 Web 应用中集成多种地图 API 的实现与管理

在 Web 开发中,集成地图服务是常见的需求之一,尤其是在需要定位、路线规划或展示地理信息的应用中。常见的地图 API 服务包括百度地图、谷歌地图和雅虎地图等。在这篇文章中,我们将深入探讨如何在 Web 应用中同时集成多个地图 API&#xff0c…

Windows电脑安装USB Redirector并实现内外网跨网USB共享通信访问

文章目录 前言1. 安装下载软件1.1 内网安装使用USB Redirector1.2 下载安装cpolar内网穿透 2. 完成USB Redirector服务端和客户端映射连接3. 设置固定的公网地址 前言 我们每天都在与各种智能设备打交道,从手机到电脑,再到各种外设,它们已经…

全自动化河道水位监测系统:实时传输与远程监控

全自动化河道水位监测系统是利用先进的自动化技术和智能化设备,实现河道水位的实时监测、数据采集、处理分析、传输与远程监控的一体化解决方案。该系统的设计目标是确保河道水位监测的精准性和及时性,为防洪抗旱、水资源管理及环境保护等提供科学的数据…

LeetCode hot 力扣100 LRU 缓存

splice 是 C STL 的 std::list 提供的一个成员函数,用于高效地将一个或多个元素从一个链表移动到另一个链表,或在同一链表内重新排列元素。它不涉及数据的拷贝,而是直接修改链表节点的指针,因此操作非常高效。splice 的功能splice…

windows下使用docker执行器并配置 hosts 解析

本篇目录 1. 问题背景2. 环境准备2.1 云上开通windows 2022 英文版机器2.1.1 安装 git2.1.2 安装 runner2.1.3 装docker2.1.4 注册runner并使用docker执行器 3. 项目信息3.1 编写window bat脚本3.2 项目.gitlab-ci.yml文件 4. 测试结论4.1 运行流水线 5. troubleshooting问题1&…

Vue2:el-tree用scope slot为每一个节点添加一个鼠标悬浮时出现的右对齐的按钮

el-tree中,每一个节点后面添加一个按钮,响应除节点点击事件之外的操作,要求: 1、按钮在鼠标悬浮在该节点之上时才出现 2、按钮右对齐 实现如下。 1、为每个节点添加按钮 从官网说明来看,有两种方式添加按钮,render-content和 scoped slot,我使用的是scoped slot方式…

小红书用户作品列表 API 系列,返回值说明

item_search_shop_video-获得某书用户作品列表 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_get,item_sea…

VB.net实战(VSTO):解决WPS Ribbon图标灰色背景

问题:用VSTO制作插件,在MS Office中图标显示正常,但在WPS Office中图标显示为灰色背景 原因:使用的图标是纯透明背景的,这样的图标在WPS中会变为灰色背景。 以下这个解决办法是我自己摸索出来的,对您有用的…