Google 程序员都是怎么研究 AI 的?

news/2024/11/2 6:38:59/

640?wx_fmt=gif

640?wx_fmt=jpeg

作者 | 赵敏

责编 | 郭芮

9 月 20 日-10 月 7 日,谷歌AI体验展在上海龙美术馆(西岸馆)展出。谷歌总共展出了 17 个互动项目,和九月底人工智能大会上谷歌介绍的项目有一些重叠,也有一些区别。这次体验展没有背后的技术原理介绍,是纯粹的成果体验,所以不需要有专业知识即可参观。

事实上,场馆里随处可见组团而来的中小学生。展出的项目中,有些比较前沿,让人可以深刻体会到谷歌领跑于世界的创新能力和强大的平台实力,但也有一些小项目,仅仅是工程师们利用业余时间开发完成的。这个现象也非常符合谷歌公司文化(插句题外话,关于谷歌文化介绍,推荐一本书《重新定义公司-谷歌是如何运营的》)。

这些项目都有一个共同点,就是使用了AI技术。

谷歌在2010年初退出中国搜索领域市场后,2016年在北京首次召开中国开发者大会,17、18年则在上海召开,大会的主题也从安卓慢慢向人工智能转变。本次体验展也是与2018开发者大会同期进行。可以看出,虽然已经过去了8年,但是随着AI浪潮的到来,谷歌对中国的热情不减反增。

近年来,作为一家 AI First 的公司,Google 在人工智能领域已经开发出了非常多的应用,比如 Google Photos、Google Lens、猜画小歌小程序等。在本次展览体验上,许多新奇的 AI 应用场景都得以展现,包括以色搜图、3D作画、AI手影识别、智能化生成皮影戏、AI二重唱等等。

本文就用一些图片和视频对这次展览做下记录。


640?wx_fmt=png

入口欢迎PPT


640?wx_fmt=gif

640?wx_fmt=png

以色搜图项目


用户可以在旁边的面板上任意选择五个不同颜色,AI程序会自动搜索主色调符合这五个颜色的艺术品。

这个算法实现起来比较简单,事先提取每件画作的色调,然后与体验者选取的颜色值进行比较匹配即可。实现难点在于谷歌搜集了600多家博物馆馆藏画作。谷歌工程师可以很方便地基于这个数据库实现自己的任何idea,这就是强大平台实力所提供的便利之处。

另外提一点,展览内的志愿者都是上海各大高校的学生通过面试选拔出来的。

640?wx_fmt=png

AI识别手影生肖


将投影在墙上的手影识别为生肖动物,这个和下一个的皮影戏项目比较类似。用到了图像处理与模式识别知识。

640?wx_fmt=gif


640?wx_fmt=png

AI生成传统皮影戏


识别手影为一个皮影戏的角色,并且将这个角色添加到皮影戏中,自动生成故事情节、动作、声音。依然是图像处理算法的应用。


640?wx_fmt=png

VR 3D做画


体验者可以通过VR眼镜和一个手柄,在虚拟世界里绘制一副3D画作。这个项目是排队最长的一个,因为体验感极强。

640?wx_fmt=gif


640?wx_fmt=png

随手涂鸦匹配世界名作


体验者随意画一个简单的线条图,AI程序可以搜索到与之最相似的艺术画作。这里的画作数据库和第一个以色搜图是同一个,包括之后还有几个项目,都会用到这个数据库。

640?wx_fmt=gif


640?wx_fmt=png

按视觉相似性排列的艺术画作


AI程序将看上去比较像的艺术品放在相邻的位置,这个图海的效果实在太酷了!

640?wx_fmt=gif


640?wx_fmt=png

AI二重唱


屏幕上蓝色为人弹奏的声音,黄色为AI智能程序弹奏的声音。不得不说现在小学生会弹钢琴的太多了,本人排队期间,平均不到十个人就有一个可以弹出曲子。一首致爱丽丝送给大家。

对这个项目背后的技术不太了解。现场体验来看,AI程序并不是在体验者一开始弹奏时就插入音符,而是自动学习几秒之后才会开始伴奏。另外背后是基于什么模型标准去添加音符也不太清楚。

如果各位看官有了解的可以在评论区留言。


640?wx_fmt=png

VR


VR的发展从12年Oculus Rift开始众筹算起,13年推出开发者版本,至今已经商用了五六年,现在也不能算什么新鲜事物了。如果对VR的技术感兴趣可以去维基百科搜索Palmer Luckey与Steve M. Lavalle。他俩是OculusVR的创始人和早期核心员工,一位主攻3D视觉方向,另外一位主要解决传感器数据融合、头部姿态预测跟踪等问题。

这些都是VR产品需要解决最基本核心的问题。

640?wx_fmt=jpeg


640?wx_fmt=png

AR


这个项目展出的AR就是一个静止的2D效果,简单地在体验者背景里添加一张画作。从技术角度看这个AR的项目的难度远低于下边的谷歌AR翻译。

640?wx_fmt=gif


640?wx_fmt=png

AI识别人体动作


程序实时地识别体验者的四肢姿势,并且从图片库里找到和你摆出同样造型的照片。事实上,识别人体骨架这个功能很早就实现了,包括微软kinect的体感游戏,也已经商用了很多年。

640?wx_fmt=gif


640?wx_fmt=png

谷歌AR翻译


识别并且翻译语言,并且将翻译的结果以AR的效果实时地贴在相机预览界面中。这个使用了OCR技术,并且依赖谷歌翻译。

其强大之处有四点:一,可以在一个界面中跟踪多个需要翻译的对象,互不干扰。二,所有工作可以在手机端侧完成,脱离谷歌云服务完全不受影响。只要用户事先下载好对应的语言包,断网之后依然可以完成翻译及渲染工作。三. 支持翻译的语言超过百种。国内百度翻译只支持三十种左右,且不支持AR翻译。有道翻译支持AR翻译,但仅限部分手机机型,即使是支持AR翻译的机型,语言也只支持三十几种。这样一对比大家就能体会到谷歌实力的恐怖之处。四,除了AR翻译,谷歌翻译还支持语音翻译,以及在其他安卓应用界面直接选中文字翻译。

大家可以去应用市场下载谷歌翻译进行体验。这个项目的完成也依靠了谷歌长期技术积累的两大平台能力,翻译能力与安卓操作系统。

640?wx_fmt=gif


640?wx_fmt=png

艺术品之间的关联性


体验者可以随机任选两幅完全没有关联的画作,AI程序可以搜索艺术品数据库,通过几幅作品将两幅完全没有关系的画作联系起来。

如下图,体验者随机选择了最左边的人像A和最右边的艺术品B,AI程序可以搜索出一些其他画作,实现从A过渡到B的效果。从效果看这个与神经网络各层之间实现的过渡比较相似。

640?wx_fmt=jpeg

640?wx_fmt=jpeg


640?wx_fmt=png

AI创作歌词与曲调


通过拍一张照片,AI自动识别里边的元素,比如“眼镜”、“棒球帽”,然后将这些关键字串联为歌词,通过RAP配上音乐说唱出来。

640?wx_fmt=jpeg


640?wx_fmt=png

EMOJI表情


根据提示的表情包,在现实生活中找到对应的物体。如手表,手机AI程序会自动判别你找到的物品是否与表情包对应,如果对应那么就会提示你成功。

640?wx_fmt=gif

640?wx_fmt=png

猜画小歌


根据提示的词语,绘制简笔画,手机AI程序会自动判断你绘制的简笔画是否符合要求,比如狗、手表、红绿灯、鲨鱼等。

640?wx_fmt=jpeg

这是个微信小程序,大家用手机就可以体验,直接在微信搜索小程序“猜画小歌”即可。


640?wx_fmt=png

放大细观世界珍宝


这个就是用三面巨屏展示艺术画作,和AI没什么关系,给人感觉是为了契合“科技与艺术”主题而拿来凑数的项目。

640?wx_fmt=gif

总之,所展出的项目大多是使用了2D图像处理技术。包括AR翻译,其实也是对每一帧图像进行物体识别跟踪。相比而言,语言声音类与3D图像类比较少。

640?wx_fmt=png

后记


09年李开复先生的离开使谷歌缺少了中国本土化的润滑剂,直接或者间接导致了当年的退出内地事件。而今年9月份AI女神李飞飞宣布离职,重复的故事又在上演,这距她17年加入谷歌都未满两年。虽然从这次展览的项目可以看出谷歌已经在小心翼翼地收敛着自己的锋芒,但是入华进程依然道阻且长。

最后附几张场馆外的风景照。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

作者:赵敏,安卓软件开发工程师,现就职于上海华为消费者BG。个人知乎号:米开朗基罗赵。

声明:本文为作者投稿,版权归作者个人所有。

推荐阅读:

640?wx_fmt=gif

640?wx_fmt=gif


http://www.ppmy.cn/news/361244.html

相关文章

思科九年(转载自Internet)

第1节:思科九年(1) 序 南半球的二月是盛夏。这里白天的阳光炽烈而持久,四处都是耀眼的惨白。电视里的广告说皮肤癌是这个国家的国癌,提醒人们小心这厉害的阳光:要穿长袖的衣服待在阴凉的地方,要戴墨镜涂防晒霜。即便如…

urule规则引擎学习笔记

规则引擎是什么 规则引擎是一种嵌入在应用程序中的组件,它可以将业务规则从业务代码中剥离出来,使用预先定义好的语义规范来实现这些剥离出来的业务规则;规则引擎通过接受输入的数据,进行业务规则的评估,并做出业务决…

那四年,我们一起逝去的青春

今天是2011年10月1日,是我出生后的第21个国庆节,也是大学生涯里最后一个国庆节,这篇日志可能有点长,闲着蛋疼的童鞋可以泡杯咖啡,一边喝一边看,就当看笑话好了。日志发出来估计已经是几个月后的事了&#x…

人机交互

一.Material Design简介 Material Design是由谷歌的设计团队创建的一种设计语言,旨在为手机、平板电脑、台式机和其他平台提供更一致、更广泛的外观和感觉,帮助设计师们创建易用性和实用性较强的网站和应用程序。这个概念基于一个不断更新的公开文档。该…

html+css+js基础问答

前端协作规范 HTML 1. HTML、XML、XHTML 的区别 HTML:超文本标记语言,是语法较为松散的、不严格的Web语言; XML:可扩展的标记语言,主要用于存储数据和结构,可扩展; XHTML:可扩展的…

使用Cocos进行2D和3D混合开发

这是异名上手cocos后,正式开发上线的第一款游戏,用的引擎版本是v.2.2.0,游戏一共有6个场景,其中一个3D场景,4个2D场景,在这里做简单的一个复盘和回顾,因为需要我们平台的账号登录就不能给大家开…

安徽初中计算机比赛,《安徽省初中信息技术基本功竞赛暨优质课展评方案.doc...

《安徽省初中信息技术基本功竞赛暨优质课展评方案 2015年信息技术优质课方案274441987,请选手尽快加入。有关事项将通过群公布。 2.评选打分 为确保评选的公平、公正、公开,制定以下打分规则: (1)基本功比赛环节中,每个…

在Macbook 上云玩LOL

文章目录 前言一、使用效果二、能写外gua吗?2.1 协议分析2.2 自动点击2.3 能否注入修改 总结参考: 前言 18年电脑换mac之后一直没怎么玩过PC上的游戏,以前开黑的车队也渐行渐远。 上周偶然看过一篇公众号。云游戏在革谁的命:http…