【20201023期AI简报】OpenCV 4.5 发布、NVIDIA开源NeMo，更多精彩点我！

导读：本期为 AI 简报 20201023 期，将为您带来过去一周关于 AI 新闻 12 条，其他互联网圈内新闻10 条，希望对您有所帮助~ 有更好的建议或者意见请在下方留言~

AI

1. OpenCV 4.5 发布！DNN 模型在 ARM 平台的推理速度提升到业界第一梯队 | OpenCV中文网

摘要：4.5作为2020秋季常规版本，大多是在修补/完善/优化，因5.0版本快要到来，4.x系列版本“基本”已经进入“稳”而不张的维护阶段。

主要更新：

Apache 2 授权协议，避免专利算法给 OpenCV 引发潜在纠纷；

国内公司OPEN AI LAB优化后的 OpenCV DNN 在 ARM 上的表现喜人，在新引擎 Tengine lite 加持下，速度获得了较大幅度提升，性能数据见原文；

SIFT 专利到期，成为公有技术，代码被移到主库；

新增了实时单目标跟踪算法SiamRPN++；

针对RISC-V指令集进行了优化。

DNN 模块改进了对一些层和激活函数的支持（ONNX: ReduceSum, Gather, 改进的Reshape等），后端支持 OpenVINO 到2021.1版，并修复和优化了对CUDA 的支持。[NeuralTalk]

2. AI突破次元壁又火了！《飞屋环游记》动漫角色一秒变真人，网友：小罗的“猫王发型”有点酷

Github：

https://github.com/eladrich/pixel2style2pixel

Paper：

https://arxiv.org/pdf/2008.00951.pdf

从“换脸”到“生成漫画脸”，AI在图像合成方面的技术已经非常成熟了。

因为支持一键切换，而且效果逼真，之前抖音的一款「变身漫画」特效还登上微博了热搜，从明星到路人，近千万用户参与。国外也有一款「秒变迪士尼公主」工具网站，上线当天就因为访问量过大而被迫下线。

这件事也引起了一位AI艺术家Nathan Shipley的好奇心，AI生成漫画脸如此逼真，那么反过来，将动漫角色转化为「真人」效果会怎么样？刚好最近国外研究团队推出了一款通用版AI模型——Pixel2Style2Pixel（pSp）。

因此，Shipley便利用这款AI模型，尝试将《超级总动员》《飞屋环游记》等电影中的经典动漫角色进行了转换，结果也因效果太赞登上了Reddit热榜。

这张《超级总动员》中的“飞毛腿”巴小飞，「真人版」形象比「动漫」更具喜感。

3. 欧洲发布最强AI超级计算机LEONARDO，超算系统格局将发生变化

超算系统份额将有所变化，从即将在11月发布的全球500强榜单开始。

雷锋网按，本周在意大利CINCA研究中心揭幕的Leonardo（莱昂纳多）超算是用了14000个Nvidia GPU，Nvidia称其为“世界上最强大的AI系统”，这个系统在某些半精度浮点（FP16）应用中提供10 exaflops的AI性能，在以Top500为基准进行测试时，可以提供大约200 petaflops算力。这一系统的推出，也将从今年底开始改变欧洲超算系统的格局。

作为独立公司，Bull不可能像今天在意大利的CINECA那样。但有了这个系统的支持，以及其他许多将在明年进入超算Top 500的系统，Atos至少在欧洲是绝对值得关注的HPC系统。

4. 跨越重重“障碍”，我从 PyTorch 转换为了 TensorFlow Lite

本文作者分享了他在 PyTorch 到 TensorFlow 之间转换的经验，或许可以给我们一些启发。

我最近不得不将深度学习模型（MobileNetV2 的变体）从 PyTorch 转换为 TensorFlow Lite。这是一个漫长而复杂的“旅程”，需要跨越很多障碍才能成功。我发现自己从 StackOverflow 帖子和 GitHub 的问题中搜集了一些信息。我的目标是分享我的经验，以帮助其他像我一样“迷失”的人。

将深度学习模型（MobileNetV2 变体）从 PyTorch 转换为 TensorFlow Lite，转换过程应该是这样的：

PyTorch → ONNX → TensorFlow → TFLite

为了测试转换后的模型，我生成了一组大约 1000 个输入张量，并为每个模型计算了 PyTorch 模型的输出。这个集合后来被用来测试每个转换后的模型，方法是通过一个平均误差度量，在整个集合中将它们的输出与原始输出进行比较。在相同的输入下，平均误差反映了在相同的输入下，转换后的模型输出与原始 PyTorch 模型输出相比有多大的不同。

5. NVIDIA开源NeMo：基于PyTorch，允许快速创建会话式人工智能模型

NVIDIA NeMo 是一个基于 PyTorch 的开源工具包，它允许开发者快速构建、训练和微调会话式人工智能模型。NeMo 由 NeMo Core 和 NeMo Collection 组成，NeMo Core 为所有模型和模块提供了一个通用的“外观”，NeMo Collection 是特定领域模块和模型的组合。在 NeMo 的 Speech Collection（nemo_asr）中，你可以找到用于语音识别、命令识别、说话人识别、说话人验证和语音活动检测的模型和各种构建模块。NeMo 的 NLP Collection（nemo_nlp）包含了诸如问题回答、标点符号、命名实体识别等任务的模型。最后，在 NeMo 的 Speech Synthesis（nemo_tts）中，你会发现一些谱图生成器和声码器，它们将让你能够生成合成语音。

6. Photoshop把AI论文demo打包实现了：照片上色、改年龄、换表情只需要点点鼠标

我们见过很多神经网络上色、换表情、修改年龄的研究和应用，但它们往往只存在于 GitHub 上，距离「人人能用」还有一段距离。但最近，推出 Photoshop 的 Adobe 这次终于有所表示了：你们论文里的效果，我们打包实现了。

这两年，我们从很多论文中看到过一些令人惊艳的 demo，比如老照片自动上色、低画质图像秒变高清图像、普通图像一键变梵高风格等。

但对于不写代码、不玩模型的普通人来说，这些 demo 展示的应用还是非常遥远，或者只能从某个 APP 中找到其中一种。因此，经常有人会问：「我也想用这个 demo 里的效果，但不懂代码，我还有机会吗？」

先说答案：有。

这个答案来自大名鼎鼎的 Adobe。这家极富创意的公司最近在 Photoshop 22.0 版更新中推出了一个新的工具包——Neural Filters，把自动上色、超分辨率、风格迁移等之前很多论文展示的功能都打包到了一起。

7. 分离硬件和代码、稳定 API，PyTorch Lightning 1.0.0 版本正式发布

Keras 和 PyTorch 都是对初学者非常友好的深度学习框架，两者各有优势，很多研究者和开发者在选择框架时可能会举棋不定。基于这种情况，grid.ai CEO、纽约大学博士 William Falcon 创建了 PyTorch Lightning，为 PyTorch 披上了一件 Keras 的外衣。

Lightning 是 PyTorch 非常轻量级的包装，研究者只需要编写最核心的训练和验证逻辑，其它过程都会自动完成。因此这就有点类似 Keras 那种高级包装，它隐藏了绝大多数细节，只保留了最通俗易懂的接口。Lightning 能确保自动完成部分的正确性，对于核心训练逻辑的提炼非常有优势。

今日，PyTorch Lightning 在推特宣布，1.0.0 版本现在可用了，并发布新的博客文章详细描述了 PyTorch Lightning 的运行原理和新的 API。William Falcon 表示自己非常期待有一天，当用户查看 GitHub 上的复杂项目时，深度学习代码不再那么令人望而生畏。

特斯拉 AI 负责人 Andrej Karpathy 也评论称：「这看起来很棒，也很有前途。PyTorch Lightning 倡导对深度学习代码进行重构，将『工程（硬件）』与『科学（代码）』分割开，然后将前者委托给框架。」

8. 速度堪比Adam，准确率媲美SGD，还能稳定训练GAN：全新优化器成为NeurIPS爆款

论文链接：

https://arxiv.org/pdf/2010.07468.pdf

论文页面：

https://juntang-zhuang.github.io/adabelief/

代码链接：

https://github.com/juntang-zhuang/Adabelief-Optimizer

最常用的深度学习优化器大致可分为自适应方法（如Adam）和加速方案（如带有动量的随机梯度下降（SGD））。与 SGD 相比，许多模型（如卷积神经网络）采用自适应方法通常收敛速度更快，但泛化效果却较差。对于生成对抗网络（GAN）这类的复杂情况，通常默认使用自适应方法，因为其具有稳定性。

在 NeurIPS 2020 的一篇 Spotlight 论文中，来自耶鲁大学、伊利诺伊大学香槟分校等机构的研究者提出了一种名为「AdaBelief」的新型优化器，可以同时满足 3 个优点：自适应方法的快速收敛、SGD 的良好泛化性、训练稳定性。论文代码也已经放出。

研究者用实验验证了 AdaBelief 的效果。在图像分类和语言建模方面， AdaBelief 收敛迅速，准确率高，性能优于其他方法。具体来说，在 ImageNet 上， AdaBelief 的准确率可与 SGD 媲美。

9. 超越ResNeSt！ResNet又一改进版，即插即用的HSB涨点神器！

Paper:

https://arxiv.org/abs/2010.07621

Code:

https://github.com/PaddlePaddle/PaddleClas

多尺度特征对于大量视觉任务均非常重要，现有诸多网络结构的改进均考虑了多尺度信息的构件。该文提出了一种“即插即用”型Hierarchical-Split Block（HSB）用于提升现有CNN的性能。HSB包含多个Split与Concat操作，它们共同构成该Block的多尺度特征提取；与此同时，HSB具有更好的灵活性与高效性。基于HSB构件的ResNet在多个任务上取得了极大的性能提升，比如在ImageNet数据集上，HS-ResNet50取得了81.28%的Top1精度，超过了之前亚马逊提出的ResNeSt。下图给出了不同ResNet的精度、推理耗时对比。

10. 美团发布AI智慧门店MAI Shop

10月13日，美团在京发布首家AI智慧门店 MAIShop，可实现无人自动分拣、无人配送车自动配送等。目前该智慧门店已在首钢园落地运行。目前，用户可在落地 MAI Shop 的园区通过沿途扫码下单、线上 App 下单及到店自提等方式进行体验。美团方面介绍，用户下单后，系统会进行订单的自主处理，通过自动拣选、AGV 小车配货、打包以及无人配送车配送一系列流程，完成订单的运作，用户只要在相应站点等待无人配送车送达，输入手机收到的验证码，即可取到下单商品。【钛媒体】

11. TensorFlow Lite 开源设备端推荐解决方案 | TensorFlow

文档：

https://tensorflow.google.cn/lite/models/recommendation/overview

摘要：TFLite 开源了一个端到端解决方案来解决设备端的推荐任务。演示应用中，集成的历史长度N =10 的 CNN 模型，Pixel 4 手机的推理延迟仅为 0.05ms。在下一个版本中，将支持多个特征作为表示，并计划设计更高级的用户编码器，例如基于 Transformer 的编码器 (Vaswani, A., et al., 2017)。

12. LambdaResNets：抛弃注意力，比EfficientNet快3.5倍，类Transformer新模型跨界视觉任务实现新SOTA | 机器之心

链接：

https://openreview.net/pdf?id=xTJEN-ggl1b
代码：

https://github.com/lucidrains/lambda-networks

摘要：该研究提出名为「lambda」的层，其提供了一种捕获输入和一组结构化上下文元素之间长程交互的通用框架。lambda 层将可用上下文转换为单个线性函数（lambdas）。这些函数直接单独应用于每个输入。作者认为，lambda 层可以作为注意力机制的自然替代。注意力定义了输入元素和上下文元素之间的相似性核，而 lambda 层将上下文信息汇总为固定大小的线性函数，从而避免了对内存消耗大的注意力图的需求，且可能适合在资源有限的场景如嵌入式应用。实验表示LambdaResNets 在所有深度和图像尺度上均优于基准水平，最大的 LambdaResNet 实现了 SOTA 水平准确度 84.8。更值得注意的是，LambdaResNets 在准确性一定的情况下比EfficientNets 要快大概 3.5 倍，速度-准确性曲线提升明显。

Other

1. 麒麟绝唱，华为“芯”伤 | 雷锋网

“华为Mate 40搭载了强大的麒麟9000芯片，是华为史上最强大的芯片。”余承东在华为Mate 40的发布会上介绍到。

根据余承东的介绍，麒麟9000是世界上首个采用5nm制程的5G手机SoC，集成153亿个晶体管，相比于A14多了30%，集成8核CPU、24核GPU和NPU AI处理器，另外还搭载华为自研第三代5G移动通信芯片，与同类旗舰芯片相比均有速度方面的提升，表现优异。

不过这一款“世界尖端的5G SoC”，在备受打压之下即将成为华为手机芯片史上的绝唱。

“绝唱”一词，给予麒麟9000肯定的同时略显悲壮。

悲壮之外，华为从自研手机芯片发展至今，还经历了什么样的变化？

复盘华为手机芯片的发展历程，可以用“一切皆有可能”概括之。

2. 研究发现，商业语音识别系统存在高错误率 | 雷锋网

“某些语音识别系统（ASR）的准确性可能要比之前假定的差很多。”

这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称，词错误率（Word Error Rate, WER）（一种常见的语音识别性能指标）要显著高于最佳报告结果，这可能表明自然语言处理（NLP）领域存在更多待克服的问题。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时，其中2.2个小时是对话。通过测试，作者发现ASR系统的错误率基本在15%以下，这与基准测试中的2%相悖。

3. 一周就能从Arm开发切换到RISC-V！5年内RISC-V的AIoT设备将触手可及

如果Arm被英伟达400亿美元成功收购，英伟达的竞争对手们不得不考虑Arm第三方IP提供商的角色是否会改变。这可能会促使一些公司转向新兴的RISC-V指令集，但他们又会担心RISC-V的生态的完善程度，很难下决定。

其实，全球越来越多的人开始关注和建设RISC-V生态。比如，发布了“一生一芯”计划的中国科学院大学；以及最新获得了小米投资，国内最早专门提供RISC-V处理器内核IP的芯来科技；还有RISC-V国际开源实验室今年推出的对标树莓派的PicoRio微型电脑系统，都从不同的维度促进了RISC-V生态的发展。

市场调研机构Semico Research预测，到2025年，采用RISC-V架构的芯片数量将增至624亿颗，2018年至2025年的复合增长率高达146%。多位业内专家都表示，RISC-V已经在AIoT市场替代Arm芯片。

芯来科技创始人兼CEO胡振波与雷锋网交流时预测：“未来3-5年，RISC-V将触手可及。5年内，AIoT的生态就会完整建立起来。”

4. 麒麟绝唱！Mate40 系列问世，华为十年打造国产机皇，最高售价超一万八

就在昨天，华为 Mate40 系列的全球线上发布会，正式落幕。

这是一场气氛略为复杂的发布会，有一丝恢弘和悲壮交叠其中。

说它恢弘，是因为华为发布的 Mate40 系列无疑是国产智能手机的巅峰之作，尤其是它内置的麒麟 9000 芯片，让人看到了国产科技产品的荣耀光辉。

说它悲壮，是因为这场发布会很有可能意味着华为 Mate 系列的终结——原因自然是众所周知的，尽管眼下还没有什么办法。

在发布会上，余承东说：

华为现在处在非常艰难的时刻，我们正在经历美国政府的第三轮禁令，这一禁令极不公正，导致我们处境艰难。

在如此艰难的处境下，可以通过阅读原文来看一下华为带来了什么。

5. 科技部：我国 5G 核心专利数世界第一，5G 基站超 60 万个

10月21日消息，在今日的国新办新闻发布会上，科技部高新技术司司长秦勇表示，我国在移动通讯上实现了 5G 技术的领跑，5G 核心专利数占世界第一，并率先实现了 5G 商用，目前我国 5G 基站数已经超过 60 万个，用户数已经突破 1.1 亿。

同时，科技部在今日的新闻发布会上总结了“十三五”期间的成功，例如以上新能源汽车、移动通讯、第三代半导体、新型显示等领域的进步，在超级计算、轨道交通、量子信息、增材制造等领域取得的一系列突破，后展望了“十四五”的道路——加强前瞻部署和大力发展以智能技术和量子技术为特征的新一代高新技术，打造我国高新技术先发优势；强化重点领域和关键环节的攻关布局；加快培育新一代高新技术产业。（IT之家）

6. 退货！iPhone 12 蓝色被嘲丑出新高度，外观撞脸一切蓝色产品，网友：没有人比苹果更懂环保

没有充电器和耳机的 iPhone12 依然真香。

16 日晚苹果的第一波预售依旧赚得盆满钵满，眼看真机就要到手，一波测评却几乎把网友们搞崩溃了。

直言如果真是测评视频中这么丑的蓝色，强烈要求退货！

就在几天前， iPhone12 蓝色便冲上了热搜。

不好意思，iPhone 12 蓝色丑到我了。

7. 美国运营商确认！iPhone12不支持双卡5G，苹果内部培训文档曝光

据自媒体科技兽爆料，在国外社区出现了据称来自苹果销售培训文档的 FAQ 资料截图，其中显示，在SIM卡+ eSIM卡的双卡模式下使用 iPhone 12，用户无法开启 5G 上网，网络速度将掉回 4G。换言之，要想回到 5G 必须开启单卡模式，即双卡状态下屏蔽一张卡后才行。

对此，据快科技援引外媒报道，从美国第一大运营商Verizon拿到的PPT中再次确认了这点。幻灯片还特别指出，eSIM客户必须拿掉实体SIM卡后才能让iPhone 12/12 Pro启用5G。不过，苹果和运营商计划在年底前通过软件更新予以解决，使得双卡和5G不再冲突。

看起来，双卡和5G的冲突主要由eSIM带来，国行iPhone 12/12 Pro/12 Pro Max是实体双卡，到底情况如何可能需要23号使用之后才能予以揭晓。（快科技）

8. 英国政府或考虑阻止英伟达收购Arm，硅谷科技巨头们也坐不住了

美国当地时间 9 月 13 日，英伟达发布声明表示与软银达成协议，将斥资 400 亿美元收购 Arm，这被誉为芯片行业有史以来最大收购。随后，该笔交易进入审核阶段，需要获得中国、美国、欧盟和英国的批准。

在审核阶段，多家硅谷科技巨头率先站出来对该交易提出反对，他们认为这笔交易对行业不利。根据外媒报道，英特尔、高通、特斯拉等多家厂商正在商讨协调行动，预计会很快公布相关公告，以向美国和世界各国当局表达他们的担忧。值得一提的是，苹果也参与了此次讨论。不过，苹果之后可能会退出这一行列，因为它被预测可能会与英伟达和 Arm 单独达成协议。

此外，英国政府文化大臣也在近日表示考虑要求竞争和市场管理局调查这笔交易。他表示：Arm 是英国科技行业的重要组成部分，为英国经济做出了重要贡献。虽然收购主要是有关各方的商业问题，但政府会密切关注这些问题，当收购可能对英国产生重大影响时，我们（英国政府）会毫不犹豫地进一步调查并采取适当行动。

9. 只需25美元，算力提升3倍：树莓派4计算模组上线

对于每一代嵌入式电脑树莓派（Raspberry Pi）来说，官方都会在基础版推出一段时间后发布同架构的计算模组。树莓派 1 的计算模组在 2014 年推出，树莓派 3 和 3+ 的更新分别在 2017 年和 2019 年。只有最短命的树莓派 2 没有获得过这样的版本。

自 2019 年 6 月，号称达到了「PC 级」性能的树莓派 4 发布已经过去十六个月了，前段时间，树莓派开发团队宣布推出 Compute Module 4，售价 25 美元起。

树莓派 4 的计算模组（Raspberry Pi Compute Module 4，CM4）构建在和树莓派 4 相同的 64 位四核博通 BCM2711 处理器之上，性能相对前一代产品有了不小的提升：它有更快的 CPU 核心，更好的多媒体性能，更多的借口，以及第一次可以选择多种 RAM 容量和无线网络连接方式。同时和树莓派 4 一样，新的计算模组已经可以通过双 HDMI 接口支持两个 4K 电脑屏幕实现 60 帧刷新率的显示。

10. 82页《现代C++教程》：高速上手C++ 11/14/17/20

中文版链接：

https://changkun.de/modern-cpp/pdf/modern-cpp-tutorial-zh-cn.pdf
英文版链接：

https://changkun.de/modern-cpp/pdf/modern-cpp-tutorial-en-us.pdf
书籍代码链接：

https://changkun.de/modern-cpp/code/
习题解答链接：

https://changkun.de/modern-cpp/exercises/

C++ 自发明以来，经历了多次修订，每一次修订都为C++ 增加了新的特性并作了一些修改。

纵观C++ 的发展史，从 C++98 的出现到 C++11 的正式定稿经历了长达十年多之久的积累。C++14/17 则是作为对 C++11 的重要补充和优化，而C++20 将这门语言领进了现代化的大门，所有这些新标准中扩充的特性，给 C++ 这门语言注入了新的活力。

这本书假定读者已经熟悉了传统 C++ ，至少在阅读传统 C++ 代码上不具备任何困难。换言之，那些长期使用传统 C++进行编码的人、渴望在短时间内迅速了解现代 C++特性的人非常适合阅读本书；
本书一定程度上介绍了一些现代 C++ 的黑魔法，但这些魔法毕竟有限，不适合希望进阶学习现代 C++ 的读者，本书的定位系现代 C++ 的快速上手。当然，希望进阶学习的读者可以使用本书来回顾并检验自己对现代 C++的熟悉度。