东京奥运会闭幕式
8月8日晚,雨后东京湾的天幕上出现了“双彩虹”,新国立竞技场一片欢腾。16天前,在这里,全球见证了奥林匹克五环旗的缓缓升起。过去16天里,在奥林匹克精神的感召下,上万名运动员在东京奥运会拼搏、交流,情同与共,共同创造新的历史。
本次奥运会中国代表团共收获颇丰,令大家印象深刻的,远远不止那些奖牌, 有太多名场面值得回味!小堂致敬所有为国出征的奥运健儿,你们是最棒的!
除了运动健儿们在赛场上拼搏的身影之外,本次东京奥运会上亮相的前沿人工智能技术,也是格外的引入瞩目,让我们一起揭秘这些人工智能技术吧!
01 首次应用的人脸识别技术
本次奥运会首次使用了人工智能面部识别系统,主要用于识别包括运动员、志愿者、媒体、工作人员等众多奥运会现场参与者。可以做到即使有多人快速通过,也能顺利地自动完成照片比对和认证。由于疫情、夏季气温等客观因素,用人脸识别技术加快身份验证和进场速度,就显得更加重要。
人脸识别技术是基于人的脸部特征,对输入的人脸图像或者视频流,首先判断其是否存在人脸,如果存在人脸,则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。然后生成专属于个人的独特代码并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。虽然机器并没有办法分辨人脸,但数据可以让AI做到。人工智能需要大量标记的人脸数据对模型进行训练,并不断优化得到一个误差更小、更可靠的人脸识别系统。
人脸识别数据解决方案
数据堂拥有多色人种人脸多姿态数据、多人种人证对比数据等数据集,在面对多色人种人脸识别问题时,能提供给客户业界领先的人脸识别数据解决方案。
例举:多色人种人脸多姿态数据
共20000余人参与数据采集,人种多样性包括黑色种人、白色种人、黄色种人、棕色人种,每人采集29张图像(28张多光照、多姿态、多场景图片+1张证件照),标注准确率达97%可用于人脸识别等任务。
02智能驾驶服务车跑在“奥运村”
东京奥运会中的智能驾驶汽车
本次奥运期间智能驾驶汽车的行驶,无疑是一大创举。如具有L4智能驾驶级别的e-Palette无人驾驶小巴,作为奥运村内的循环巴士,负责接送奥运会相关人员;同样具备L4级别智能驾驶能力的丰田Concept-i,是奥运圣火传递的列队车和马拉松比赛的先导车。
智能驾驶汽车是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预定目标的智能汽车。它是利用车载传感器来感知车辆周围环境,并根据感知所获得的道路、车辆位置和障碍物信息,控制车辆的转向和速度,从而使车辆能够安全、可靠地在道路上行驶。
智能驾驶数据解决方案
在智能驾驶场景下的语音交互、视觉感知领域中,数据堂可以提供版权数据集、定制采集标注服务、可私有化部署的标注平台。通过高质量的训练数据协助客户改善智能驾驶AI模型,以创造更加安全舒适的驾乘体验。
例举:街景目标语义分割数据集
该数据集包括万余张照片共30万余框街景目标语义分割数据。数据在中国市区及乡村道路场景下采集。数据多样性包括多种场景、多种天气分布、不同时间段、不同分辨率。在标注方面,对街景图片上的5类目标(28个子类)进行多边形框标注。该数据可用于自动驾驶领域相关任务。
03人工智能裁判给选手打分
人工智能打分辅助系统
本届奥运会采用了人工智能打分辅助系统。该评分系统通过向选手的身体及其周边投射红外线,完成动作追踪。这个评分系统就会根据运动序列预测,做出目标检测、目标跟踪和目标识别。如此一来,就可以为每一位运动员提供专业的评分意见,协助他们调整运动的姿态。
在人工智能学习的过程中输入很多之前的比赛数据,让人工智能去学习运动员的各种动作,在正式比赛中与学习的数据进行比对就可以进行打分。
个性化数据定制服务
针对不同客户的研发需求,数据堂可提供专业的数据集定制服务。数据堂现有多套专业数据采集设备、工具和环境,项目经理拥有丰富的采集及质量管控经验,可以满足客户多种场景与类型的数据采集需求。在标注方面,现有3个大型标注基地、5000名以上经验丰富的专业标注人员可以支持语音、图像、视频、点云、文本等专业数据标注定制服务。
04实时翻译实现无障碍沟通
语音翻译终端
为了本次奥运会松下公司开发了一个具备语音翻译功能的小型终端设备,翻译语言可达10余种。在翻译机的演示中有这样有趣的一幕:一名外国男子在体育场弄丢钱包之后,搭载面部识别功能的摄像头发现了该男子,志愿者通过使用挂在脖子上的多语种语音翻译机与该男子进行了对话,最终成功帮助他找到了钱包。
实时语音翻译的过程相对复杂,需要经过语音识别、语言理解、对话管理、语言生成、语音合成这五大步骤。人工智能训练的过程也相对复杂,首先将准备好的各种语音识别数据录入到人工智能学习系统后,人工学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时,软件会在该统计模型中寻找相似的内容,之后应用到预先“学到”的转化程序中,使得音频转换为文本再从文本转换成另一种语言。从而实现实时翻译。
语音识别数据解决方案
在训练人工智能进行语音识别的过程中,数据堂现有的英语、法语、俄语等17种语言共60000小时的高质量的语音数据集可以为语音识别模型提供非常好的数据解决方案。
例举:北美英语语音数据集
该数据集共有300余位北美地区发音人参与录制,内容包含短语和句子,场景丰富,贴近生活,录音环境来自安静的室内,录音设备使用均衡包含PC、手机等,识别准确率达95%该数据集适用于北美英语语音识别等应用场景。
不只刚刚落下帷幕的东京奥运会,伴随着科技进步,人工智能已经开始在安保、医疗、社会服务等生活中的方方面面大放异彩。数据趋动,期待在下一届奥运会中见到更多有AI身影