Google 程序员都是怎么研究 AI 的？

640?wx_fmt=gif

640?wx_fmt=jpeg

作者 | 赵敏

责编 | 郭芮

9 月 20 日-10 月 7 日，谷歌AI体验展在上海龙美术馆（西岸馆）展出。谷歌总共展出了 17 个互动项目，和九月底人工智能大会上谷歌介绍的项目有一些重叠，也有一些区别。这次体验展没有背后的技术原理介绍，是纯粹的成果体验，所以不需要有专业知识即可参观。

事实上，场馆里随处可见组团而来的中小学生。展出的项目中，有些比较前沿，让人可以深刻体会到谷歌领跑于世界的创新能力和强大的平台实力，但也有一些小项目，仅仅是工程师们利用业余时间开发完成的。这个现象也非常符合谷歌公司文化（插句题外话，关于谷歌文化介绍，推荐一本书《重新定义公司-谷歌是如何运营的》）。

这些项目都有一个共同点，就是使用了AI技术。

谷歌在2010年初退出中国搜索领域市场后，2016年在北京首次召开中国开发者大会，17、18年则在上海召开，大会的主题也从安卓慢慢向人工智能转变。本次体验展也是与2018开发者大会同期进行。可以看出，虽然已经过去了8年，但是随着AI浪潮的到来，谷歌对中国的热情不减反增。

近年来，作为一家 AI First 的公司，Google 在人工智能领域已经开发出了非常多的应用，比如 Google Photos、Google Lens、猜画小歌小程序等。在本次展览体验上，许多新奇的 AI 应用场景都得以展现，包括以色搜图、3D作画、AI手影识别、智能化生成皮影戏、AI二重唱等等。

本文就用一些图片和视频对这次展览做下记录。

入口欢迎PPT

640?wx_fmt=gif

以色搜图项目

用户可以在旁边的面板上任意选择五个不同颜色，AI程序会自动搜索主色调符合这五个颜色的艺术品。

这个算法实现起来比较简单，事先提取每件画作的色调，然后与体验者选取的颜色值进行比较匹配即可。实现难点在于谷歌搜集了600多家博物馆馆藏画作。谷歌工程师可以很方便地基于这个数据库实现自己的任何idea，这就是强大平台实力所提供的便利之处。

另外提一点，展览内的志愿者都是上海各大高校的学生通过面试选拔出来的。

AI识别手影生肖

将投影在墙上的手影识别为生肖动物，这个和下一个的皮影戏项目比较类似。用到了图像处理与模式识别知识。

640?wx_fmt=gif

AI生成传统皮影戏

识别手影为一个皮影戏的角色，并且将这个角色添加到皮影戏中，自动生成故事情节、动作、声音。依然是图像处理算法的应用。

VR 3D做画

体验者可以通过VR眼镜和一个手柄，在虚拟世界里绘制一副3D画作。这个项目是排队最长的一个，因为体验感极强。

640?wx_fmt=gif

随手涂鸦匹配世界名作

体验者随意画一个简单的线条图，AI程序可以搜索到与之最相似的艺术画作。这里的画作数据库和第一个以色搜图是同一个，包括之后还有几个项目，都会用到这个数据库。

640?wx_fmt=gif

按视觉相似性排列的艺术画作

AI程序将看上去比较像的艺术品放在相邻的位置，这个图海的效果实在太酷了！

640?wx_fmt=gif

AI二重唱

屏幕上蓝色为人弹奏的声音，黄色为AI智能程序弹奏的声音。不得不说现在小学生会弹钢琴的太多了，本人排队期间，平均不到十个人就有一个可以弹出曲子。一首致爱丽丝送给大家。

对这个项目背后的技术不太了解。现场体验来看，AI程序并不是在体验者一开始弹奏时就插入音符，而是自动学习几秒之后才会开始伴奏。另外背后是基于什么模型标准去添加音符也不太清楚。

如果各位看官有了解的可以在评论区留言。

VR的发展从12年Oculus Rift开始众筹算起，13年推出开发者版本，至今已经商用了五六年，现在也不能算什么新鲜事物了。如果对VR的技术感兴趣可以去维基百科搜索Palmer Luckey与Steve M. Lavalle。他俩是OculusVR的创始人和早期核心员工，一位主攻3D视觉方向，另外一位主要解决传感器数据融合、头部姿态预测跟踪等问题。

这些都是VR产品需要解决最基本核心的问题。

640?wx_fmt=jpeg

这个项目展出的AR就是一个静止的2D效果，简单地在体验者背景里添加一张画作。从技术角度看这个AR的项目的难度远低于下边的谷歌AR翻译。

640?wx_fmt=gif

AI识别人体动作

程序实时地识别体验者的四肢姿势，并且从图片库里找到和你摆出同样造型的照片。事实上，识别人体骨架这个功能很早就实现了，包括微软kinect的体感游戏，也已经商用了很多年。

640?wx_fmt=gif

谷歌AR翻译

识别并且翻译语言，并且将翻译的结果以AR的效果实时地贴在相机预览界面中。这个使用了OCR技术，并且依赖谷歌翻译。

其强大之处有四点：一，可以在一个界面中跟踪多个需要翻译的对象，互不干扰。二，所有工作可以在手机端侧完成，脱离谷歌云服务完全不受影响。只要用户事先下载好对应的语言包，断网之后依然可以完成翻译及渲染工作。三. 支持翻译的语言超过百种。国内百度翻译只支持三十种左右，且不支持AR翻译。有道翻译支持AR翻译，但仅限部分手机机型，即使是支持AR翻译的机型，语言也只支持三十几种。这样一对比大家就能体会到谷歌实力的恐怖之处。四，除了AR翻译，谷歌翻译还支持语音翻译，以及在其他安卓应用界面直接选中文字翻译。

大家可以去应用市场下载谷歌翻译进行体验。这个项目的完成也依靠了谷歌长期技术积累的两大平台能力，翻译能力与安卓操作系统。

640?wx_fmt=gif