搜索引擎中的相关性模型

news/2024/9/14 2:02:50/ 标签: 搜索引擎, 相关性模型, BERT模型

一、什么是相关性模型

相关性模型主要关注的是query和doc的相关性。例如给定query,和1000个doc,找到哪个doc是好query最相关的。

二、为什么需要相关性模型

熟悉es的应该都熟悉BM25相关性算法。它是一个很简单的相关性算法。我们实际使用中,经常会遇到一个问题就是如何。搜的内容和我给定的query不相关。换句话说,返回的结果不包含先要的结果。

相关性是一个复杂的问题。不是简单的Bm25算法。我们需要相关性模型来更好的做这件事。

三、相关性模型

交叉BERT模型,准确性好,推理代价大,更适合用在粗排或者精排阶段。

双塔BERT模型,不够准确,但是推理代价小。适合用来召回阶段。

3.1 交叉BERT模型

 

分词:字粒度与词粒度

 

如何减低交叉BERT模型的推理成本

 

3.2 双塔BERT模型

四、训练相关性模型

 

4.1 微调

 

回归任务

排序任务

 

4.2 后预训练 

从事发后,从以发生的事中,去再提升当前的能力。通过用户的点击行为来有优化模型。

4.2.1 数据筛选

 

4.2.2 后训练,构造训练数据

挑选用户的点击数据。得到query,topk的doc,以及用户的点击行为x。然后抽样几万条数据,去人工标注,标注得到相关性y,然后用这几万条数据去训练一个小模型来计算点击行为x和相关性y的关系。然后再用这个小模型去预测10亿条数据的相关性分数。

 

 

4.3 蒸馏

蒸馏是把一个大模型变成一个小模型。为什么要蒸馏,模型越大,推理成本越大,时间成本也越大,当然也越准确。

4.3.1 为什么要蒸馏?

用大模型,蒸馏得到小模型,最终的效果比直接训练一个小模型得到的效果更好。

4.3.2 如何做蒸馏

蒸馏的技巧

 

 

 


http://www.ppmy.cn/news/1475792.html

相关文章

Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制

章节内容 上节我们完成了: ZooKeeper 集群配置ZooKeeper 集群启动ZooKeeper 集群状况查看Follower 和 Leader 节点 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭…

jenkins系列-06.harbor

https://github.com/goharbor/harbor/releases?page2 https://github.com/goharbor/harbor/releases/download/v2.3.4/harbor-offline-installer-v2.3.4.tgz harbor官网:https://goharbor.io/ 点击 Download now 链接,会自动跳转到上述github页面&am…

多旋翼+VR眼镜:10寸FPV穿越机技术详解

FPV(First Person View)穿越机,是指通过第一人称视角来驾驶的无人机,特别强调速度和灵活性,常常用于竞赛、航拍和探索等领域。结合多旋翼设计和VR眼镜,FPV穿越机为用户提供了身临其境的飞行体验。 多旋翼技…

Android人脸解锁源码解析

1 人脸解锁相关类介绍 FaceManager FaceManager是一个私有接口,用于维护FaceService的之间连接。Keyguard通过该接口访问具有自定义界面的人脸识别身份验证硬件。应用无权访问FaceManager,必须改为使用BiometricPrompt。 FaceService 该框架实现用于管…

vscode连接到WSL子系统报错/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/node: not found

子系统单独启动没有问题,vscode启动wsl子系统报错 报错如下: /home/sophia/.vscode-server/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/bin/code-server: 12: /home/sophia/.vscode-server/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/node: n…

git github gitee 三者关系

Git: Git 是一个分布式版本控制系统,用于跟踪源代码的更改。它由 Linus Torvalds 于 2005 年开发,目的是更好地管理 Linux 内核开发。Git 是一个命令行工具,具有以下特点: 分布式:每个开发者的工作目录都是…

B树:深入解析与实战应用

在数据结构和算法的世界中,B树(B-tree)无疑是一颗璀璨的明星。它不仅广泛应用于数据库和文件系统的索引结构中,而且在许多需要高效数据检索的场景中发挥着重要作用。本文将从B树的基本概念入手,通过图文结合的方式&…

海外媒体宣发:尼日利亚媒体通稿报道发布-大舍传媒

尼日利亚媒体概述 尼日利亚,作为非洲人口最多的国家,拥有多元化的媒体环境。在这个国家,你可以找到各种类型的媒体,包括传统媒体和新媒体。传统媒体主要包括报纸、电视和广播,而新媒体则主要是互联网和社交媒体。 尼…

Java+springboot+vue智慧班牌小程序源码,智慧班牌系统可以提供哪些服务?

智慧班牌全套源码,系统技术架构:Javaspringbootvue element-ui小程序电子班牌:Java Android演示正版授权。 智慧班牌在智慧校园的数字化建设中提供了多种服务,这些服务不仅丰富了校园的信息展示方式,还促进了家校互动…

Open-TeleVision——通过VR沉浸式感受人形机器人视野:兼备远程控制和深度感知能力

前言 7.3日,我司七月在线(集AI大模型职教、应用开发、机器人解决方案为一体的科技公司)的「大模型机器人(具身智能)线下营」群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接 我当时快速看了一遍&#x…

ASP.NET MVC-制作可排序的表格组件-PagedList版

环境: win10 参考: 学习ASP.NET MVC(十一)——分页 - DotNet菜园 - 博客园 https://www.cnblogs.com/chillsrc/p/6554697.html ASP.NET MVCEF框架实现分页_ef 异步分页-CSDN博客 https://blog.csdn.net/qq_40052237/article/details/106599528 本文略去…

ATE电源芯片测试方案之效率曲线评估芯片性能

在电子产品的设计中,电源管理芯片的效率优化是提升能效和延长使用寿命的关键。因此,探究电源管理芯片在不同工作条件下的效率变化,并通过效率曲线进行可视化表达,对于电源管理技术的进步至关重要。 电源管理芯片的效率曲线 鉴于电…

【C++深入学习】类和对象(一)

欢迎来到HarperLee的学习笔记! 博主主页传送门:HarperLee博客主页! 欢迎各位大佬交流学习! 本篇本章正式进入C的类和对象部分,本部分知识分为三小节。复习: 结构体复习–内存对齐编译和链接函数栈桢的创建…

OpenCV solvePnP位姿估计

目录 一、概述 二、实现代码 2.1solvePnP函数 2.1.1输入参数 2.1.2输出参数 2.2完整代码 三、实现效果 3.1标定板位姿 3.2标定板到相机的变换矩阵 一、概述 完成相机标定后,可以通过检测标定板在图像中的位置来计算标定板在相机坐标系下的位姿(…

vue 项目代码架构

Vue项目的代码架构通常遵循一定的组织结构和约定,以提高项目的可维护性、可扩展性和可读性。以下是对Vue项目代码架构的详细解析: 一、项目目录结构 Vue项目的目录结构通常包括以下几个关键部分: 根目录: package.json&#x…

如何使用这个XMLHttpRequest?

ajax含义:async javascript and XML;是异步的JS和XML;是实现页面局部刷新的技术(是一门独立的技术)。 为什么在js内能够使用呢?是因为ajax在浏览器内内置了一个核心对象,--》XMLHttpRequest(低版本的IE浏览器没有) 步…

Jetson-AGX-Orin gstreamer+rtmp+http-flv 推拉流

Jetson-AGX-Orin gstreamerrtmphttp-flv 推拉流 Orin是ubuntu20.04 ARM64架构的系统,自带gstreamer 1、 测试摄像头 测试摄像头可以用v4l2-ctl命令或者用gst-launch-1.0 #用v4l2-ctl测试摄像头,有尖角符号持续打印则正常 v4l2-ctl -d /dev/video0 --set-fmt-vid…

MySQL篇:事务

1.四大特性 首先,事务的四大特性:ACID(原子性,一致性,隔离性,持久性) 在InnoDB引擎中,是怎么来保证这四个特性的呢? 持久性是通过 redo log (重做日志&…

暗黑魅力:Xcode全面拥抱应用暗黑模式开发指南

暗黑魅力:Xcode全面拥抱应用暗黑模式开发指南 随着苹果在iOS 13和iPadOS 13中引入暗黑模式,用户可以根据自己的喜好或环境光线选择不同的界面主题。作为开发者,支持暗黑模式不仅能提升用户体验,还能彰显应用的专业性。Xcode提供了…

AI数字人直播saas系统源码分析与解读,哪家部署的系统更具优势?

随着AI数字人直播的应用潜力持续展现,越来越多的创业者都有了打造AI数字人直播saas系统,从而通过为各大企业提供AI数字人直播等服务来获得收益。在此背景下,各大数字人源码厂商所部署的AI数字人直播saas系统源码质量成为了众多创业者的重点关…