Trie树模板与应用

news/2025/2/13 0:02:38/

文章和代码已经归档至【Github仓库:https://github.com/timerring/algorithms-notes 】或者公众号【AIShareLab】回复 算法笔记 也可获取。

文章目录

    • Trie树(字典树)
      • 基本思想
      • 例题 Trie字符串统计
        • code
        • 关于idx的理解
      • 模板总结
      • 应用 最大异或对
        • 分析

Trie树(字典树)

Trie树是用来快速存储和查找 字符串集合的数据结构。某个字符串集合对应的有根树。树的每条边上对应有恰好一个字符,每个顶点代表从根到该节点的路径所对应的字符串(将所有经过的边上的字符按顺序连接起来)。利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

基本思想

存储若干字符串(通常样本中的字符较少),然后根据字符串中字符出现的先后顺序建立树,把具有相同前缀的字符串按照其前缀归类在一个分支中,并且需要在字符串的最后一个位置进行标记(表明到此为一个完整的字符串)。

查找时只需要寻找是否有匹配的序列,并且是否已标记结尾即可。

例题 Trie字符串统计

维护一个字符串集合,支持两种操作:

  1. I x 向集合中插入一个字符串 x;
  2. Q x 询问一个字符串在集合中出现了多少次。

共有 N 个操作,输入的字符串总长度不超过 1 0 5 10^5 105,字符串仅包含小写英文字母。

输入格式

第一行包含整数 N,表示操作数。

接下来 N 行,每行包含一个操作指令,指令为 I xQ x 中的一种。

输出格式

对于每个询问指令 Q x,都要输出一个整数作为结果,表示 x 在集合中出现的次数。

每个结果占一行。

数据范围

1 ≤ N ≤ 2 ∗ 1 0 4 1≤N≤2∗10^4 1N2104

输入样例:

5
I abc
Q abc
Q ab
I ab
Q ab

输出样例:

1
0
1

code

#include<iostream>
using namespace std;const int N = 100010;
// 下标0代表根节点和空节点,cnt用于计数,idx代表当前的节点(和单链表一样)相当于是一个独一无二的递增编号,son[N][26]每个节点最多有26条边(小写英文字母)
int son[N][26], cnt[N], idx;
char str[N];
// 插入
void insert(char str[])
{int p = 0;// 根节点// 遍历字符串,cpp中str最后一位是\0for(int i = 0; str[i]; i ++){// 映射字母a-z为0-25int u = str[i] - 'a';// 若不存在该节点则创建一个if(!son[p][u]) son[p][u] = ++ idx;// 走到该子节点p = son[p][u];}cnt[p] ++ ;// 标记该子节点存在的单词个数 记住这里p = son[p][u];
}
// 查询
int query(char str[])
{int p = 0;for(int i = 0; str[i]; i++){int u = str[i] - 'a';if(!son[p][u]) return 0;p = son[p][u];}return cnt[p];
}int main()
{//ios::sync_with_stdio(false);//cin.tie(0);int n;scanf("%d", &n);while(n --){char op[2];scanf("%s%s", op, str);if(op[0] == 'I') insert(str);else printf("%d\n", query(str));}return 0;
}

关于idx的理解

不管是链表,Trie树还是堆,他们的基本单元都是一个个结点连接构成的,可以成为“链”式结构。这个结点包含两个基本的属性:本身的值和指向下一个结点的指针。按道理,应该按照结构体的方式来实现这些数据结构的,但是做算法题一般用数组模拟,主要是因为比较快。

原来这两个属性都是以结构体的方式联系在一起的,现在如果用数组模拟,如何才能把这两个属性联系起来呢,如何区分各个结点呢?答案是采用idx。

idx的操作总是 idx++,这就保证了不同的idx值对应不同的结点,这样就可以利用idx把结构体内两个属性联系在一起了。因此,idx可以理解为结点。

idx相当于一个分配器,如果需要加入新的结点就用++idx分配出一个下标,输入字符串的总长度不超过 1 0 5 10^5 105,因此最多会用到 1 0 5 10^5 105个idx。

Trie树中有个二维数组 son[N][26],表示当前结点的儿子,如果没有的话,可以等于++idx。Trie树本质上是一颗多叉树,对于字母而言最多有26个子结点。所以这个数组包含了两条信息。比如:son[1][0]=2表示1结点的一个值为a的子结点为结点2;如果son[1][0] = 0,则意味着没有值为a子结点。这里的son[N][26]相当于链表中的ne[N]。当然这里2仅仅是一个节点的编号而已。

参考:https://www.acwing.com/solution/content/5673/

模板总结

int son[N][26], cnt[N], idx;
// 0号点既是根节点,又是空节点
// son[][]存储树中每个节点的子节点
// cnt[]存储以每个节点结尾的单词数量// 插入一个字符串
void insert(char *str)
{int p = 0;for (int i = 0; str[i]; i ++ ){int u = str[i] - 'a';if (!son[p][u]) son[p][u] = ++ idx;p = son[p][u];}cnt[p] ++ ;
}// 查询字符串出现的次数
int query(char *str)
{int p = 0;for (int i = 0; str[i]; i ++ ){int u = str[i] - 'a';if (!son[p][u]) return 0;p = son[p][u];}return cnt[p];
}

应用 最大异或对

在给定的 N个整数 A 1 A_1 A1 A 2 A_2 A2…… A N A_N AN 中选出两个进行 x o r xor xor(异或)运算(一般异或运算是按位计算的),得到的结果最大是多少?

输入格式

第一行输入一个整数 N。

第二行输入 N 个整数 A 1 A_1 A1 A N A_N AN

输出格式

输出一个整数表示答案。

数据范围

1 ≤ N ≤ 1 0 5 1≤N≤10^5 1N105
0 ≤ A i < 2 31 0≤A_i<2^{31} 0Ai<231

输入样例:

3
1 2 3

输出样例:

3

分析

首先是暴力做法BF O ( n 2 ) O(n^2) O(n2)

for (int i = 0; i < n; i++)
{for (int j = 0; j < i; j++){// 但其实 a[i] ^ a[j] == a[j] ^ a[i], 所以内层循环 j < i // 因为 a[i] ^ a[i] == 0 所以事先把返回值初始化成0 不用判断相等的情况}
}

异或也可以理解为不进位加法,相同的话异或值为0。Trie树不仅可以存储整数,也可以存储二进制数。而计算机中所有文件都是以二进制的形式保存的,换句话说Trie数可以存储任何文件。异或后最大,这需要寻找出与原数每位不同的数,为保证最大值,需要从最高位开始依次寻找,过程如下所示:

可以不用先全部插入,因为这是有顺序的,避免多次枚举 a j a_j aj a i a_i ai 以及 a i a_i ai a j a_j aj 的情况。因此可以先查找再插入(可能最开始的情况下要写一个特判,因为最开始没有可以查找的内容),当然也可以先插入再查找(可能存在的问题就是每次自己和自己异或是0,没有意义)。

#include <iostream>
#include <algorithm>using namespace std;
// N是整数个数,M是树的总宽度
const int N = 100010, M = 3100010;int n;
int a[N], son[M][2], idx;void insert(int x)
{int p = 0;for (int i = 30; i >= 0; i -- ){// 从高到低依次取每一位int u = x >> i & 1;// 没有该节点则插入该节点if (!son[p][u]) son[p][u] = ++ idx;// 指针指向下一层p = son[p][u];}
}int query(int x)
{int p = 0, res = 0;for (int i = 30; i >= 0; i -- ){// 从最大位开始找int u = x >> i & 1;// 如果当前层有对应的不相同的数,p指针就指到不同数的地址if (son[p][!u]){p = son[p][!u];// 因为这一位不同,异或后为1,这里向前移位并且保留相反数即可。res = res * 2 + !u;}else {p = son[p][u];// 如果没有相异的数,则只能向前移一位然后保留该数即可。res = res * 2 + u;}}return res;
}int main()
{scanf("%d", &n);for (int i = 0; i < n; i ++ ) scanf("%d", &a[i]);int res = 0;for (int i = 0; i < n; i ++ ) {insert(a[i]);int t = query(a[i]);// 最后再进行异或处理res = max(res, a[i] ^ t);}printf("%d\n", res);return 0;
}

同时,这里关于代码有两个思路,一个是上面这种query需要寻找的对应的异或的整数,最后 max(res, a[i] ^ t) 得到结果。

此外还可以直接在 query 中提前进行比较计算,最后直接比较结果即可 max(res, t),过程如下:

int query(int x)
{int p = 0, res = 0;for (int i = 30; i >= 0; i -- ){// 从最大位开始找int u = x >> i & 1;// 如果当前层有对应的不相同的数,p指针就指到不同数的地址if (son[p][!u]){p = son[p][!u];// 因为这一位不同,异或后为1,只需要向前移并且加1即可res = res * 2 + 1;}else {p = son[p][u];// 这一位相同,xor后为0,向前移一位然后置0即可。res = res * 2 + 0;}}return res;
}

http://www.ppmy.cn/news/330948.html

相关文章

【Java|多线程与高并发】volatile关键字和内存可见性问题

文章目录 1.前言2. 编译器优化带来的内存可见性问题3. 使用volatile保证内存可见性5.volatile不能保证原子性以JMM的角度看待volatile总结 1.前言 synchronized和volatile都是Java多线程中很重要的关键字&#xff0c;但它们的作用和使用场景有所不同。 synchronized关键字可以…

竞技游戏耳机哪种好?竞技游戏专用蓝牙耳机推荐

作为一名游戏爱好者&#xff0c;平常在打游戏的时候身边一定会有游戏外设&#xff0c;游戏外设可以辅助我在游戏中有着更佳的体验&#xff1b;经常陪伴我的游戏外设就是蓝牙耳机了&#xff0c;平常我也不喜欢戴有线的耳机&#xff0c;对于我来说无线耳机是最方便的&#xff0c;…

哪款蓝牙耳机游戏体验感好?适合打游戏的蓝牙耳机推荐

随着蓝牙耳机市场的竞争日益激烈&#xff0c;不同品牌配置的耳机价格差异也是十分巨大的&#xff0c;这些原因就导致了我们选蓝牙耳机比较复杂&#xff0c;那么想要一款玩游戏体验感很棒的耳机该怎么选呢&#xff1f;耳机的品质好坏可以从外观质感和耳机元件配置上看。想要挑选…

什么游戏蓝牙耳机好?专业电竞玩家教你如何选择

现在真无线蓝牙耳机早已经成为了我们日常生活中最常见也最受欢迎的一种音乐设备&#xff0c;少了从前有线耳机的束缚和线材的局限。虽然使用起来更加方便&#xff0c;但在信号传输上还是有大部分蓝牙耳机的延迟较高&#xff0c;而对于游戏党来说耳机的延迟功能也就非常重要&…

有什么专业打游戏的蓝牙耳机?四款电竞蓝牙耳机推荐

蓝牙耳机的口碑足够好的话&#xff0c;绝对会传遍整个数码界。像今天我介绍的这几款蓝牙耳机&#xff0c;在数码圈就是口碑被吹爆的存在&#xff0c;兼具平价和高性能的优点&#xff0c;音质非常不错&#xff0c;所以很值得专门写一篇推文来进行推荐&#xff0c;放心吧&#xf…

打游戏的蓝牙耳机推荐哪一款?英雄联盟电竞耳机推荐

现如今的生活节奏越来越快&#xff0c;人们的压力越来越&#xff0c;工作余后的时光该怎么调节心情呢&#xff1f;听听音乐是个不错的选择。比较低传统的耳机线收起来总是缠缠绕绕的&#xff0c;使用起来不方便&#xff0c;近年来出的真无线蓝牙耳机市场也是非常火爆&#xff0…

编译详细过程与交叉编译

GCC的编译过程&#xff1a; GCC编译分为四步&#xff0c;预处理、编译、汇编、链接。具体功能如上图所示&#xff0c;我们在稍微解释一下&#xff1a; 1.预处理&#xff1a; 实现过程&#xff1a;gcc -E xxx.c -o xxx.i 目的&#xff1a;我们的c程序中除了main函数以外&…

多业务聚合查询设计思路与实践

文章目录 [toc] 1.需求2.方案2.1 方案架构图2.2 选用flink-cdc的原因 3.实践3.1 环境准备3.3 es集群搭建3.4 flink1.14.0环境搭建3.5 准备sql和jar包3.5.1[创建mysql的flink用户并授权](https://ververica.github.io/flink-cdc-connectors/master/content/connectors/mysql-cdc…