最近一段时间,无人便利店在国内发展得如火如荼,技术方案也各不相同。其中非常核心的技术之一就是计算机视觉。Amazon Go和阿里巴巴的淘咖啡无人超市都是这条技术路线上的领先者,而它们背后都离不开一个人——任小枫。
任小枫曾是亚马逊最高级别的华人科学家,是Amazon Go 的重要策划者之一。他现在的身份则是阿里巴巴 iDST 首席科学家兼副院长,也是阿里无人超市背后的重要力量之一。
10月11日-14日,2017云栖大会在杭州举行,雷锋网奔赴大会现场第一时间进行了跟踪和报道。10月14日的阿里巴巴新零售峰会上,任小枫围绕“人工智能如何在新零售场景下进行应用”这一主题进行了精彩分享。
任小枫开宗明义地指出,新零售是以消费者体验为中心,由数据驱动的泛零售形态。他同时还指出,数据并不是现成的,需要我们花大力气去获取,尤其是在线下场景中,需要通过视觉或其他手段获取有用的信息。因此,新零售本质上是“由信息驱动的”。
计算机视觉作为一种获取信息的通用手段具备很多优势,但同时也存在一些短板。为了让大家更好的理解,计算机视觉发展到了什么样的水平,能够做哪些事情,未来具备怎样的想象空间;任小枫对计算机视觉的发展状况做了详细的介绍。
最后,他还列举了新零售诸多应用场景中他最感兴趣也最看好的4个应用方向:增强现实、智慧门店、机器人、可穿戴设备。
以下是任小枫分享的全部内容,雷锋网做了不改变原意的编辑:
作为一名技术人员,我大多数时间都在思考如何解决实际的技术问题,但有时候也会思考未来是什么样子的。今天就借这个机会跟大家分享一下我的思考。
我在美国工作和生活了很长时间,所以新零售对我来说也是一个谜。如何解开这个谜呢?我看了前段时间阿里研究院关于新零售的报告,里面对新零售做了非常全面的总结:新零售是以消费者体验为中心,由数据驱动的泛零售形态。短短一句话里包含了很多信息。新零售的想象空间比较难以把握,因为它的应用场景非常多,涵盖了批发、零售、物流、娱乐、餐饮等等。不过对它的描述中有几个关键词:体验、数据、泛零售。什么是更好的消费者体验?相信在座各位比我更有想法和经验。我是研究人工智能的,主要研究方向是计算机视觉,我的心得在于如何得到有用的数据。
数据的应用场景很多,涵盖了百货公司、购物中心、便利店,甚至直播、视频、电子商务等等。但无论在哪个场景,买东西的本质都是人和商品。我们需要做的就是理解人,理解物;把人和物联系起来,让用户更好更快地找到他满意的商品,或者更好更快地把商品送到用户手里。
计算机视觉是获取信息的重要手段
要得到关于人和物的信息,尤其是在线下场景中,计算机视觉是非常好的方法。我这样说并非因为我是从事计算机视觉方向研究的,而是因为它本身有本多的优势。摄像机是一种通用手段,通过摄像机可以做很多事情,比如识别人、物、动作。它还是一种非常高信息量的感知方法,现在1080P的视频已经非常普及了,通过1080P的像素可以看到很多东西,而且不用靠的很近就能感知。
而它又是一种被动的方法,很多情况下原因是因为人是用眼睛感知的,所以这个世界实际上是为了我们的眼睛而设计的,从红绿灯也好,标志牌也好,很多商品的包装,很多时候都是为了适应人眼,计算机视觉就是利用了这个世界设计的规律,然后试图用同样的途径来得到更多的信息。
当然,计算机视觉也存在很多缺陷。首先,必须要有光照,只有在比较好的光照条件下才能获得优质的信息。其次,遮挡也是比较大的问题,一旦摄像机被挡住,后面的信息就看不到了。因为我们需要高信息量,所以采用了可见光,但可见光波长很短,无法绕开前面的遮挡物。过去计算机视觉应用的最大问题是精度不够,但最近几年已经有了很大的改善,精度不再是特别大的瓶颈。
计算机视觉的发展状况
下面快速介绍一下当前计算机视觉的发展状况,让大家对我们的技术进步到了什么程度有个更好的了解。
识别物体方面,国际上有一个非常具有影响力的竞赛——物体分类竞赛(ILSVRC)。要给一千个物体的图片打上标签,分辨它究竟是什么。
2012年,深度学习开始在这个问题中得到应用。2012年之后的六年时间里,计算机识别的精度一直在提高。我们可以比较一下机器和人类识别的错误率——有人测试过,人类在解决这个问题时的错误率为5%,这并不意味着计算机超越了人类,因为人类犯错有很多方面的原因。但我们可以说,计算机在某些情况下达到了人类的精度。
计算机视觉要解决的不止“一张图一个物体”的问题,还要处理很多复杂的场景。所以ILSVRC中也设置了物体检测竞赛,让计算机从复杂的场景中找出各种各样的物体。计算机视觉在这个问题上的进展也很快,深度学习只是原因之一。
要做到正确检测物体,就需要有正确地标签和位置。物体检测问题还跟阈值有关,假如把阈值调高,返回的错误结果就会更少一些;假如将阈值调低,返回的结果更多,但也会包含一些错误。
总体而言,现在的MAP平均精度达到了0.75,跟人类相比还有一定差距。但在很多场景中,计算机已经能够做得很好了,比如在下面这个场景中——有人、狗、雨伞和一些比较小的东西,计算机通常都能够检测得到。
再看一下语义分割的例子。在这个问题中,我们需要做的不只是找边框,而是要在每个像素点上标注它到底什么。比如在自动驾驶的例子中,算法可以标记树、车、行人和各种各样可能遇到的物体,目前我们已经达到了不错的精度。我认为,用摄像机做无人车是非常有意思的方向。
计算机视觉可以做很多事情,比如通过多相机跟踪,我们可以识别人的身份,并比较精准地获取他的位置。室内定位有很多方法,比如WiFi、蓝牙、超声波,但它们实现起来都有一定的难度,而计算机视觉可以达到厘米级的定位精度。
很多情况下,我们不仅需要检测某个人的位置,还要估计他的姿态。姿态是我们理解他人意图的基础,可以从中获取很多信息。有了姿态之后,我们还可以在姿态的基础上做一些动作的识别,物体的识别,很多情况下能够识别人的动作。
向前展望一下,未来无论是在室内还是室外场景,夸张点说,人类用眼睛可以做到的事情计算机视觉也能做。几年前我绝对不敢说这句话,但现在算法和其他方面的能力都有了很大的提升,在某些情况下已经非常接近人类了。
但反过来说,对于摄像机拍不到的地方,计算机视觉也无能为力。因此,在解决实际问题时,摄像机的布置是非常重要的,我们需要找到最佳的布置方案,最大程度获取想要的信息。当然,除了摄像机的布置,我们还要考虑数据、计算量、成本等与算法的结合。总而言之,我对计算机视觉是非常有信心的。
再回过头来讨论新零售。前面提到新零售是由数据驱动的,其实可以小小修改一下,表述成“新零售是由信息驱动的”。为什么呢?因为很多时候数据并不是现成的,需要我们花大力气去获取,特别是在线下场景中,需要通过视觉或其他手段获取有用的信息。
四个最看好的应用方向
说完了计算机视觉的技术进展,下面谈谈我非常感兴趣的几个应用方向:增强现实、智慧门店、机器人、可穿戴万能助手。
增强现实
增强现实是现实世界跟虚拟世界的叠加。比如上图展示的,我们买家具时可以拿pad拍摄家具叠加到住宅的图片当中。这个过程涉及几项关键技术,比如三维定位、三维建模、渲染等等。建模和渲染比较简单,定位技术现在也已经比较成熟了。几个月前,苹果公司发布了苹果手机中精准、实时的三维定位功能,其计算量已经达到了实用的程度。解决了三维定位问题后,增强现实技术可以应用到许多场景。
比如,我太太经常叫我去店里买东西,我不知道要找的东西在哪,又不愿意问人,要花很长时间。有了定位技术之后,就可以为店里的商品做一个精准的地图,用增强现实对顾客进行引导。
当然,在上面这个场景中,增强现实并非非常关键的技术。那么,我们接着说虚拟购物。有了增强现实,我们可以将在网上找到的家具叠加到家中,观察大小、搭配和光影效果等等。这项技术现在很多人在做,我们很快就能用到了。
智能门店
下面再跟大家探讨一下智能门店。我以前在亚马逊工作,很幸运在Amazon Go项目开始时加入了这个团队,我们历时四年打造了Amazon Go概念店,我对此感到兴奋和自豪。在Amazon Go中,我们解决了通用场景下的支付问题,做到了“拿了就走,无需排队结账”。虽然只省去了支付环节,但要做到高精度还有很多问题需要解决,比如人、商品和动作的识别问题。我们可以把Amazon Go想象成一个通用的线下智能系统,它包含了一个相机网络,可以做很多事情,比如跟踪人、分析人流,分析顾客的停留时间、有没有拿东西、有没有放回去。如果通过人脸识别的技术与身份结合,门店还能随时知道你是谁,并提供个性化的服务。
支付肯定是未来的一大方向。很多时候我们还会思考在线上比较容易实现的事情,比如分析顾客的停留时间并提供个性化服务。因为现在我们在线下也能做类似的事情。反而有些事情在线上很难实现,比如表情识别。我们在线下可以通过分析顾客的人脸,判断他是高兴、生气还是无聊。所以说,和线上相比,线下说不定真的有一些优势。
在不远的将来,Amazon Go这样的通用线下智能系统可以做很多事情。但应用于一家店铺是一回事,应用于银泰这种拥有很多店铺的大商场又是一回事,难度会再上一个大台阶。此外,要应对比较拥挤的场景,必须在算法和数据上花很大的精力。但总的来说,这已经是可见的事情了。
机器人
第三个提一下机器人,前面提的很多情况下只是感知,只知道那个人在哪里,其实我们可以做一些交互,可以是语音的交互,也可以是显示屏或者视觉上面的交互。从物理的角度来说,我觉得我对机器人还是非常感兴趣的,机器人现在发展也是非常的快,大家其实已经看到了很多的例子。
比如伦敦的送货机器人,我们可以将它和无人车对比。送货机器人的技术和无人车比较相像,都需要对环境有非常精准地标签,要知道路在哪、该在哪里上下台阶、人在哪里,怎么才不会撞到人。很多问题都是相通的,但送货机器人相对简单一些,因为风险没那么大。但是另一方面,送货机器人对成本比较敏感,我们必须选择比较简单的硬件和算法方案。
包括现在很多人在做的无人机,无人机的控制技术已经发展得非常成熟了。宾夕法尼亚大学在无人机控制方面做了很多工作,靠附带的相机无人机就能完成看起来非常复杂的动作。
再举一个Boston的例子,他们做了很长时间的机器人研究,在控制方面做得很好。他们的机器人可以做很多事情,可以在家里行走,做非常复杂的动作。它有腿和手,可以抓取厨房里的杯子。很多人想要一个可以帮自己洗碗洗盘子,或者干其他家务的机器人。要做到这一点还有些距离,但也不是那么遥远。
Boston主要是做控制的,在视觉方面没花太多功夫。不然它就可以识别香蕉皮并避开它,不至于摔倒了。好在它摔倒之后可以爬起来,自己上楼梯。
未来机器人是一个很有意思的发展方向,相信在物流和门店都将有更多机器人投入应用。
可穿戴万能助手
最后一个是万能助手,主要指的是可穿戴设备。
可穿戴设备是个人视角,跟门店不同,它可以记录生活,识别环境,识别其它的人,也可以用来识别自己的动作状态,可以作为一个助手跟你对话,给你提供信息,它其实是有很多事情可以做的。
譬如,Snap Sperctacles 前段时间出了一个比较好的眼镜,可以比较好的记录生活状态。
谷歌好几年前就开始做谷歌眼镜了,但后来没有成功。它后来又推出了企业版,可以在制造和物流等行业帮工作人员做很多事情,比如识别、扫码等。再比如,工作人员在从事比较复杂的接线工作时,谷歌眼镜可以告诉线头该怎么接,这是很实用的。
大概七八年前,我和别人合作过一个可穿戴相机的项目,我负责搜集数据。这个可穿戴相机可以检测到用户在开盒子还是关盒子、手里拿着什么东西。当然,它并不是都能正确识别,因为动作的识别是比较困难的。但我觉得以后我们也能做好第一人称视角的识别,这样的可穿戴相机相对只能识别环境的相机来说拥有很多优势。
大家都知道Hype Cycle曲线。每个新技术、新产品都要经过这样几个阶段:刚开始时大家很兴奋,一拥而上,很快就到达了顶点;接下来就要处理实际问题,曲线开始下行,到达谷底时最现实的问题就暴露出来了,只有知道该怎么解决,才能再逐渐往上走。
增强现实已经经过了谷底,接下来会看到比较多的产品应用。智能门店还处在山顶附近,还有很多问题需要解决,机器人和可穿戴设备则还在更遥远的未来。但刚才曾教授(曾鸣)说了,要想想五年、十年以后,这些领域的前景还是非常令人激动的。
前面提到,在很多应用中,计算机视觉都能起到非常关键的作用。因为它是通用的方法,可以获取人物的动作等很多信息。
当然我们需要去得到相关的数据,很多时候很多算法需要融合,需要跟其它的传感器进行融合。另外,很多时候也不光是感知的问题,我们需要去跟机器人或者其它交汇的方法融合,计算角度来说不见得都在云上或者端上做,云跟端也要融合。
此外,在简单的手势识别、商品搜索、虚拟现实、新制造等方向上,人工智能和计算机视觉也有很多应用的可能性。
现在是一个技术发展非常快的时代,商业发展得也非常快,我非常期待能成为当中的一部分。希望能跟大家一起努力,建设更美好的未来。