【王树森搜索引擎技术】概要01:搜索引擎的基本概念

server/2025/1/20 12:26:37/

1. 基本名词

  • query:查询词
  • SUG:搜索建议
  • 文档:搜索结果
  • 标签/筛选项
    在这里插入图片描述
  • 文档单列曝光
    在这里插入图片描述
  • 文档双列曝光
    在这里插入图片描述

2. 曝光与点击

  • 曝光:用户在搜索结果页上看到文档,就算曝光
  • 文档点击:在曝光后,用户点击文档,进入文档的详细页
  • 文档点击率:文档点积总次数/文档曝光总次数
  • 查询词点击:用户点击搜索结果页上的任意一篇文档,就算查询词点击。无论点击了多少次,只要点击了,就算查询词点击
  • 查询词点击率(有点比):查询词点击总次数/搜索总次数
  • 查询词首屏点击:用户点击搜索结果页首屏的任意一篇文档,就算”查询词首屏点击“
  • 查询词首屏点击率(首屏有点比):查询词首屏点击总次数/搜索总次数
  • 首屏点击的定义更严格,所以查询词首屏点击率比查询词点击率更小
  • 它们很相似,都能反应用户能否很好地找到所需的文档
    在这里插入图片描述
  • 文档点击率:10%左右,通常很小
  • 查询词点击率(有点比):70%左右
  • 查询词首屏点击率(首屏有点比):60%左右
  • 有点比的重要性高于文档点击率

3. 垂搜 vs 通搜

  • 垂直搜索(垂搜):针对某一个行业的搜索引擎。比如电商搜索,学术搜素,本地生活搜索等
  • 垂直搜索的文档普遍是结构化的,容易根据文档属性标签做搜索筛选。比如电商可以限定卖家和价格,学术可以限定作者,期刊,年份等
  • 垂直搜索用户的意图明确
  • 通用搜索(通搜):覆盖面广,不限于一个领域。例如百度,必应,抖音。
  • 文档来源广,覆盖面大。例如网页,视频,商品等
  • 没有结构化,检索难度大
  • 用户使用通搜的目的各不相同,较难判断用户意图
  • 课程主要研究通用搜索

http://www.ppmy.cn/server/159878.html

相关文章

图像处理基础(3):均值滤波器及其变种

均值滤波器可以归为低通滤波器,是一种线性滤波器,其输出为邻域模板内的像素的简单平均值,主要用于图像的模糊和降噪。 均值滤波器的概念非常的直观,使用滤波器窗口内的像素的平均灰度值代替图像中的像素值,这样的结果就…

论文阅读:CosAE Learnable Fourier Series for Image Restoration

这是 2024 NeurIPS 上发表的一篇文章,介绍了一种新型的基于傅里叶级数的通用编码器。 Abstract 本文介绍了余弦自动编码器(Cosine Autoencoder, CosAE),这是一种新颖的通用自动编码器,它将经典傅里叶级数与前馈神经网…

Linux 文件权限详解

目录 前言 查看文件权限 修改文件权限 符号方式 数字方式 前言 Linux 文件权限是系统中非常重要的概念之一,用于控制对文件和目录的访问。权限分为读(Read)、写(Write)、执行(Execute)三个…

密码学——密码学基础、散列函数与数字签名

1.密码学概述 是信息安全的基础和核心,是防范各种安全威胁的重要手段,信息安全的许多相关知识都与密码学相关。 密码学发展 密码学是一门古老而又年轻的学科 ,几千年以前就存在,至今仍在发展演进。地位非常重要甚至起决定性作用…

你喜欢用什么编辑器?

电脑工作者和程序员所使用的文本编辑器通常需要具备高效率、易用性以及对代码友好等特点,包括语法高亮、自动完成、多文件同时编辑、查找替换、版本控制集成等功能。以下是几个广受开发者欢迎且实用性较强的文本编辑器: Visual Studio Code(V…

计算机网络 (49)网络安全问题概述

前言 计算机网络安全问题是一个复杂且多维的领域,它涉及到网络系统的硬件、软件以及数据的安全保护,确保这些元素不因偶然的或恶意的原因而遭到破坏、更改或泄露。 一、计算机网络安全的定义 计算机网络安全是指利用网络管理控制和技术措施,保…

AF3 PairStack类源码解读

PairStack 是 AlphaFold 的核心模块之一,用于对残基对(residue-residue pair)的特征张量 z 进行迭代更新。这个模块结合几何操作(如三角形乘法)和注意力机制,逐步建模蛋白质序列中残基之间的复杂关系。 源代码: class PairStack(nn.Module):def __init__(self,c_z: in…

查看代理设置Get-Item Env:https_proxy

通过 PowerShell 来检查和设置代理环境变量。以下是对每个命令的解释以及你提供的命令的功能:### 1. **获取 https_proxy 环境变量**powershellGet-Item Env:https_proxy该命令会显示当前 PowerShell 会话中的 https_proxy 环境变量值。如果该环境变量没有设置&…