Redis Search系列 - 第三讲 拼写检查

devtools/2024/10/23 18:45:40/

拼写检查 - Spellchecking & Dict

Spellchecking为拼写错误的搜索词提供建议。例如,术语“reids”可能是“redis”的拼写错误版本。
从v1.4开始,Redis Search可以为拼写错误的查询术语(term)生成替代的方案。拼写错误的术语是全文术语(即单词),即:

  • 不是停词
  • 不在索引中
  • 至少3个字符

拼写错误术语的替代词:

  • 从已经索引的术语语料库生成
  • 或者(可选)从一个或多个自定义 字典(Dict) 生成

备选项根据它们与拼错词之间的 Levenshtein距离 成为拼写建议,每个拼写建议根据其在索引中的出现次数给出一个标准化分数。

注:
Levenshtein距离(Levenshtein Distance),也称为编辑距离(Edit Distance),
是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。
允许的编辑操作包括插入一个字符、删除一个字符和替换一个字符。

拼写检查相关命令示例:

# 给出my_idx索引下术语held的拼写错误替代方案,且允许的编辑距离为2
# 多组替代方案按score降序排列
# score = 包含替代术语的文档数 / 文档总数
# dict中的替代术语score恒为0
FT.SPELLCHECK my_idx held DISTANCE 2
1) 1) "TERM"2) "held"3) 1) 1) "0.66666666666666663"2) "hello"2) 1) "0.33333333333333331"2) "help"# 添加字典my_fish(适用于所有索引)
# 字典值包括:[水煮鱼, 水煮肉片, 水煮]
FT.DICTADD my_fish 水煮鱼 水煮肉片 水煮 # 给出my_idx索引下术语“水煮”的拼写错误替代方案,
# 且允许的编辑距离为2,
# 且支持从自定义字典my_fish中生成(支持INCLUDE和EXCLUDE)
FT.SPELLCHECK my_idx 水煮 DISTANCE 2 TERMS INCLUDE my_fish

关于Spellchecking的相关命令FT.SPELLCHECK可参见:
https://redis.io/docs/latest/commands/ft.spellcheck/
关于Spellchecking中自定义字典相关的命令FT.DICTADDFT.DICTDELFT.DICTDUMP可参见:
https://redis.io/docs/latest/commands/ft.dictadd/
https://redis.io/docs/latest/commands/ft.dictdel/
https://redis.io/docs/latest/commands/ft.dictdump/


http://www.ppmy.cn/devtools/128217.html

相关文章

计算机毕业设计 基于Python的汽车销售管理系统的设计与实现 Python毕业设计 Python毕业设计选题【附源码+安装调试】

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

linux java17 - linux环境 centos7卸载java8安装java17

前言 因为springboot3不再支持java8,最近开始转java17,具体要求如下 ‌Spring Boot 3要求使用Java 17或更高版本,不支持Java 8。‌ Spring Boot 3.0 正式版已经发布,并且明确要求最低支持Java 17‌12。 Spring Boot 3.0 正式版发…

鸿蒙ArkTS中的资源管理详解

在鸿蒙应用开发中,资源管理是一个非常重要的话题。ArkTS作为鸿蒙原生开发语言,提供了强大的资源管理功能。本文将深入探讨ArkTS中的资源管理,特别是$r语法的使用注意事项,以及其他实用的资源管理技巧。 1. $r语法简介 在ArkTS中,$r是一个用于引用资源的特殊语法。它允许开发者…

java实现文件分片上传并且断点续传

文章目录 什么是断点续传后端实现JAVA实现大文件分片上传断点续传 什么是断点续传 用户上传大文件,网络差点的需要历时数小时,万一线路中断,不具备断点续传的服务器就只能从头重传,而断点续传就是,允许用户从上传断线的地方继续传…

大数据治理:数据时代的挑战与应对

目录 大数据治理:数据时代的挑战与应对 一、大数据治理的概念与内涵 二、大数据治理的重要性 1. 提高数据质量与可用性 2. 确保数据安全与合规 3. 支持数据驱动的决策 4. 提高业务效率与竞争力 三、大数据治理的实施策略 1. 建立健全的数据治理框架 2. 数…

【Flutter】Dart:库

在 Dart 中,库(Library)是组织和重用代码的基本方式。通过库,我们可以将代码分割成模块化的部分,方便管理和共享,同时避免命名冲突。Dart 提供了大量内置库,用于支持常见的功能,比如…

大厂面试真题-说说Clickhouse比Hbase强在哪

ClickHouse相较于HBase,在多个方面展现出了其独特的优势。以下是对ClickHouse相对于HBase的强项进行的详细对比: 一、设计理念与适用场景 ClickHouse: 专为在线分析处理(OLAP)而设计,强调读取性能和查询速…

九盾叉车高位显示器:重塑叉车视界,引领高位精准

在繁忙的物流与仓储中,叉车不仅是力量与效率的化身,更是精准与安全的守护者。九盾安防,以科技之名,打造叉车高位显示器,彻底革新了货叉升降的盲区挑战,为物流、仓储及码头等领域带来了前所未有的作业体验。…