算法:TopK问题

news/2025/1/14 22:37:06/

题目

有10亿个数字,需要找出其中的前k大个数字。

为了方便讲解,这里令k为5。

思路分析(以找前k大个数字为例)

很容易想到,进行排序,然后取前k个数字即可。
但是,难点在于,10亿个数字,假设每个数字都是int,就需要40亿个字节,接近40G的内存,这是很恐怖的数据,肯定不可能直接进行排序。

那我们怎么办呢?

我们可以建一个k个元素的堆
找前k大的数字建小堆,找前k小的数字建大堆
接着,将剩下N - k个数字与堆顶元素比较
如果比堆顶元素大,就进入堆,向下调整,维护好堆
遍历完所有的数字即可
最终堆里面的元素就是前k大个数字

思路虽然不好想,但是理解起来还是比较简单的,
难点在于,为什么找前k个大数字要建小堆呢?

OK,我们先假设,建大堆。
当中途找到了最大的数字,这个数字就会一直再堆顶,如果后面还有其他前k大的数字,但小于最大的数字,就会被挡住,无法进入堆。

所以找前k大个数字要建小堆,找前k小个数字要建大堆,是相同的道理。

时间复杂度分析

如果采用排序来寻找前K大个数字,时间复杂度是O(N * logN)
但是采用建堆的思路,时间复杂度是O(K + (N - K) *logK)
因为N是远大于K的,所以,时间复杂度为O(N),优于排序算法
而且空间复杂度也非常小。

整体思路上完全优于排序算法

代码

10亿个数据太难造了,这里就简单使用10万个数据模拟一下吧
用随机数模拟出10万个数据,接着进行打桩,在这10万个数据中造出一些特殊数据,这里为1000001,1000002,1000003,1000004,1000005

void CreateNDate()
{// 造数据int n = 100000;srand(time(0));const char* file = "data.txt";FILE* fin = fopen(file, "w");if (fin == NULL){perror("fopen error");return;}for (size_t i = 0; i < n; ++i){int x = rand() % 1000000;if (i == 333)x = 1000001;if (i == 444)x = 1000002;if (i == 555)x = 1000003;if (i == 666)x = 1000004;if (i == 777)x = 1000005;fprintf(fin, "%d\n", x);}fclose(fin);
}void TopK(int k)
{const char* file = "data.txt";FILE* fout = fopen(file, "r");if (fout == NULL){perror("fopen error");return;}int* heap = new int[k];for (int i = 0; i < k; i++){fscanf(fout, "%d", &heap[i]);}for (int i = (k - 1 - 1) / 2; i >= 0; --i){AdjustDown(heap, k, i);}int x = 0;while (fscanf(fout, "%d", &x) != EOF){if (x > heap[0]){heap[0] = x;AdjustDown(heap, k, 0);}}for (int i = 0; i < k; ++i){cout << heap[i] << " ";}cout << endl;
}int main()
{CreateNData();TopK(5);return 0;
}

在这里插入图片描述


http://www.ppmy.cn/news/1526434.html

相关文章

架构师知识梳理(七):软件工程-工程管理与开发模型

软件工程概述 软件开发生命周期 软件定义时期&#xff1a;包括可行性研究和详细需求分析过程&#xff0c;任务是确定软件开发工程必须完成的总目标&#xff0c;具体可分成问题定义、可行性研究、需求分析等。软件开发时期&#xff1a;就是软件的设计与实现&#xff0c;可分成…

GitLab CI_CD 从入门到实战笔记

第1章 认识GitLab CI/CD 1.3 GitLab CI/CD的几个基本概念 GitLab CI/CD由以下两部分构成。 &#xff08;1&#xff09;运行流水线的环境。它是由GitLab Runner提供的&#xff0c;这是一个由GitLab开发的开源软件包&#xff0c;要搭建GitLab CI/CD就必须安装它&#xff0c;因…

HarmonyOS开发5.0【骨架屏】 app界面制作

实现原理 1.定义组件和状态变量&#xff1a; 使用 Entry 和 Component 装饰器定义了一个名为 IvSkeleton 的组件。 定义了一个状态变量 translageX&#xff0c;初始值为 -100%&#xff0c;用于控制闪电效果的位置。 定义了两个数值变量 widthValue 和 heightValue&#xff0c;…

【Vue嵌套数据中,实现动态表头和内容】

el-table中&#xff0c;表头和内容是动态的。表头名称取数组对象tableData中的crb.name、dcpg.name等等。表头为空&#xff0c;不显示这一列。内容取的是数组对象tableData中的crb.count、dcpg.count等等。tableData [ { crb: { name:‘矫正状态: 在矫(数里)’, count: 1, }, …

只有IP地址没有域名怎么实现HTTPS访问?

&#x1f510; 实现IP地址HTTPS访问 &#x1f310; 确认公网IP地址 公网IP&#xff1a;确保你拥有一个公网IP地址&#xff0c;或者内网映射公网&#xff0c;这是实现HTTPS访问的前提。 &#x1f4dd; 选择证书颁发机构&#xff08;CA&#xff09; 选择CA&#xff1a;选择一个…

Java多线程面试精讲:源于技术书籍的深度解读

写在前面 ⭐️在无数次的复习巩固中&#xff0c;我逐渐意识到一个问题&#xff1a;面对同样的面试题目&#xff0c;不同的资料来源往往给出了五花八门的解释&#xff0c;这不仅增加了学习的难度&#xff0c;还容易导致概念上的混淆。特别是当这些信息来自不同博主的文章或是视…

code eintegrity npm err sha512

当 npm install 出现报错的时候&#xff1a; 你应该这样去解决&#xff1a; 删除 package-lock.json 文件&#xff0c;重新执行 npm install。 问题出现的原因 EINTEGRITY 错误码表示在npm缓存中无法找到 指定sha512校验合的模块。 出现这个问题的原因是缓存不一致&…

加密与安全 _ 安全原则:任何客户端的东西都不可信任

文章目录 OverView客户端的计算不可信1. 初始错误示例2. 改进后的正确示例3. 更进一步的优化&#xff1a;使用简化的请求对象 客户端提交的参数需要校验初始错误示例改进后的正确示例方式一&#xff1a;手动校验参数方式二&#xff1a;使用 Spring Validation 进行参数校验 隐藏…