TPU编程竞赛系列|算能赛道冠军SO-FAST团队获第十届CCF BDCI总决赛特等奖!

news/2025/2/4 8:38:58/
近日,第十届中国计算机学会(CCF)大数据与计算智能大赛总决赛暨颁奖典礼在苏州顺利落幕,算能赛道的冠军队伍SO-FAST从2万余支队伍中脱颖而出,获得了所有赛道综合评比特等奖!

本届CCF大赛吸引了来自全国的2万余支团队参赛,有10支队伍从中脱颖而出,入围总决赛。算能赛道冠军SO-FAST获得总决赛综合评比特等奖。

聚焦产业落地,算能TPU平台助力AI算法高效部署

与其他赛道更多关注算法研究不同,「基于TPU平台实现人群密度估计」致力于解决算法在产业落地过程中的关键问题,是当前产业界和学术界高度关注的热点,也是CCF大赛中最具产业应用价值的赛题之一。

在本次比赛中,SO-FAST团队三位选手分工明确,宋礼负责比赛方案的设计和模型量化,柯嵩宇负责量化后的模型优化,包锴楠负责部署过程中的推理加速。

为实现人群密度估计在算能TPU平台的高效部署,团队主要采取了以下五个步骤:

第一步,模型选择。通过对预训练模型的理论效果分析和实际模型推理效果在测试集上的指标评估,对比不同模型的最终得分,从而选定预训练模型;

第二步,模型量化。为了使用 TPU 平台的强大计算能力,需要使用算能的量化工具对模型进行量化,并评估量化后模型的精度;

第三步,精度调优。对量化后模型的精度进行调优,一般量化使用 INT8 类型的数据来替代 FALOT32 类型的数据从而加速计算,该过程会引入模型精度的损失,主要通过筛选图片构建用于量化的数据集来较少模型精度的损失;

第四步,推理加速。实现模型部署过程中的推理加速,通过分析模型推理过程中的核心耗时部分,针对性地使用了 4N Batch 和图片划分等方式,提升模型的推理速度。

第五步,部署实测。将模型部署到 BM1684 平台,测试模型的实际性能,最终的评估结果表明该方案在 A/B榜的测试数据上均获得了第一名。

人群密度估计可以应用于很多场景,比如视频监控、城市交通流量监测、商场人流量统计等,尤其在安防监控领域中有着重要的应用。通过对监控区域内人群密度的估计,可以实时判断人群是否过于拥挤,是否有局部聚集等情况,从而及时采取相应措施,保障社会安全。

对交通路口、公共场所等区域的人群密度的估计,可以实时了解人流量,更好地进行交通规划和交通管理,在商场、超市等场景,可以实时了解不同时间段人群的数量、流向,为智能化的管理和经营提供准确的数据支持,拥有重要的商业价值。本次冠军团队的方案也将在后续的商业化项目中得到推荐。

十年磨一剑,CCF BDCI成AI领域最具影响力赛事之一

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

大赛迄今已成功举办十届,累计发布基于真实产业场景的赛题162道,吸引来自全球的1500余所高校、1800余家企事业单位的18万余人参与,提交解决方案及算法作品近30万次,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。算能也将持续关注并参与CCF BDCI大赛,持续为国内AI领域的人才培养和产业落地贡献力量。


http://www.ppmy.cn/news/30212.html

相关文章

八大排序算法之堆排序的实现+经典TopK问题

目录 一.堆元素的上下调整接口 1.前言 2.堆元素向上调整算法接口 3.堆元素向下调整算法接口 二.堆排序的实现 1.空间复杂度为O(N)的堆排序(以排升序为例) 思路分析: 代码实现: 排序测试: ​时空复杂度分析: 2. 空间复杂度为O(1)的堆排序(以排降序为例) 将数组arr调…

图神经网络 pytorch GCN torch_geometric KarateClub 数据集

图神经网络 安装Pyg 首先安装torch_geometric需要安装pytorch然后查看一下自己电脑Pytorch的版本 import torch print(torch.__version__) #1.12.0cu113然后进入官网文档网站 链接: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html 安装自己…

深度学习算法训练和部署流程介绍--让初学者一篇文章彻底理解算法训练和部署流程

目录 1 什么是深度学习算法 2 算法训练 2.1 训练的原理 2.2 名词解释 3 算法C部署 3.1 嵌入式终端板子部署 3.3.1 tpu npu推理 3.3.2 cpu推理 3.2 服务器部署 3.2.1 智能推理 3.2.2 CPU推理 1 什么是深度学习算法 这里不去写复杂的概念,就用通俗的话说…

【玩转c++】vector讲解和模拟底层实现

本期主题:vector的讲解和模拟实现博客主页:小峰同学分享小编的在Linux中学习到的知识和遇到的问题小编的能力有限,出现错误希望大家不吝赐vector的介绍及使用1.1vector的介绍vector其实就是一个数组的模板 ,存放的数据可以改变而已…

FPGA实现SDI视频编解码 SDI接收发送,提供2套工程源码和技术支持

目录1、前言2、设计思路和框架SDI接收SDI缓存写方式处理SDI缓存读方式处理SDI缓存的目的SDI发送3、工程1详解4、工程2详解5、上板调试验证并演示6、福利:工程代码的获取1、前言 FPGA实现SDI视频编解码目前有两种方案: 一是使用专用编解码芯片&#xff0…

放弃node-sass,启用sass

在下载一个新项目时运行:npm run install 发现报错 npm uninstall 异常 Error: Could not find any Visual Studio installation to use 或是 ------------------------- You need to install the latest version of Visual Studio npm ERR! gyp ERR! find VS incl…

docker(三)仓库的搭建、官方私有仓库的加密和认证

文章目录一、docker仓库二、仓库Registry工作原理三、搭建本地私有仓库四、配置镜像加速器五、私有仓库的加密认证1.非加密下上传拉取2.insecure registry3.仓库加密4.仓库认证一、docker仓库 什么是仓库 Docker 仓库是用来包含镜像的位置,Docker提供一个注册服务器…

RSTP基础要点(上)

RSTP基础RSTP引入背景STP所存在的问题RSTP对于STP的改进端口角色重新划分端口状态重新划分快速收敛机制:PA机制端口快速切换边缘端口的引入RSTP引入背景 STP协议虽然能够解决环路问题,但是由于网络拓扑收敛较慢,影响了用户通信质量&#xff…