【Reading Notes】Favorite Articles from 2024

在这里插入图片描述

文章目录

1、January
2、February
3、March
4、April
5、May
6、June
7、July
8、August
9、September
10、October
11、November
12、December

1、January

2、February

今天起，他是黄仁勋院士！2024美国工程院院士名单出炉，清华黄翊东等当选外籍院士（2024年02月07日）
2024年美国工程院新晋院士名单公布！
根据官方介绍，美国国家工程院选出了114名新晋院士，以及21名外籍院士。这使得美国成员总数达到2310人，外籍成员总数达332人。
「大模型变小」成年度大趋势！1月AI四大研究精彩亮点超长总结，模型合并MoE方法是主流
AI大模型并非越大越好？过去一个月，关于大模型变小的研究成为亮点，通过模型合并，采用MoE架构都能实现小模型高性能
出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT（ 2024年02月21日）
其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文 《Scalable Diffusion Models with Transformers》 被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。
https://github.com/facebookresearch/DiT
Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.

《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

3、March

Sora外部测试翻车了！3个视频都有Bug（ 2024年03月01日）
不仔细看还真看不出来（类似找穿帮镜头）

4、April

一句话打造Agent！李彦宏：人人都是开发者的时代到来（2024年04月16日）
文心智能体平台，Agent Builder 就是基于文心大模型4.0能力的智能体构建平台，中文名字叫“文心智能体平台”。
现在，在官网体验中心，已经有不少智能体可供参考。
既有创意类型的各种“绘画大师”，也有能直接上岗工作的“新媒体小编”，创作、娱乐、职场、学习、生活等各个垂类均可覆盖。——“知乎回答器”、“小红书文案创作”
AI换脸以假乱真！蚂蚁数科发布反DeepFake产品，还设百万奖金池邀请黑客找bug（2024年04月16日）
- ZOLOZ Deeper，蚂蚁数科ZOLOZ出品。我们日常的支付宝刷脸支付，正是依托于他们技术支撑。
- 防：捕捉微表情、肌肉纹理、眼神流转等细微特征，精准判断其是否为真人实时互动。
- 攻：借助天玑实验室来进行自动化攻防测评。此次，天玑实验室则是通过GAN模型生成超30万测试样本，来交给ZOLOZ Deeper 进行判别训练。除此之外，每个月还会对它进行超过20000次的攻防测评，模拟上百种伪造攻击情况。

5、May

AI拉货挣钱，已经绕地球2500圈了（2024年05月15日）
- 嬴彻科技。其卡车NOA商业里程已经超过1亿公里。
- 使用嬴彻智能驾驶系统的里程占比已经到90%-95%，用户黏性极强。
抖音豆包成年轻人AI顶流！字节跳动大模型家族登场，tokens价格比行业低99%（2024年05月16日）
- 截止到2024年3月，豆包月活用户为2328.2万，在AIGC类应用中排名第一。
- 安卓市场累计下载量1.37亿，在AIGC类应用中大幅领先。
- 豆包、扣子的背后离不开强大的技术底座——豆包大模型（曾用名「云雀」）。
中国旧AI四小龙，连年亏钱（2024年05月19日）
- 商汤、云从、旷视、依图，特别是已经上市了的商汤科技以及云从科技，股价和市值更是猛猛下跌。
- 商汤 SenseAuto 绝影智能汽车平台，已和30多家车企、近50个车型建立了合作，实现了2000万台车的订单。年度亏损，从2019年的49.7亿元人民币一路提升至2023年的64.9亿人民币。
- 云从科技可谓根正苗红，前身是由中科院，最大的人脸识别研究团队孵化而成。融资全是内资机构，并且经常出现地方政府基金与国有资本的身影，其中包括了广州南沙金控、长三角产业创新基金等政府基金。说个有趣的，云从科技本身在“AI四小龙”当中成立时间最晚，却是最早通过IPO审核的那个。亏损减少，从2022年的9.16亿元人民币，减少至2023年的6.4亿人民币。
- 旷视科技累计赢得56项世界冠军。根据招股书的披露，旷视科技尚未盈利，以及存在累计未弥补亏损的情况。
- 依图，在人脸识别技术方面，依图科技连续多年保持着最高水平，并曾在美国国家标准技术局（NIST）主办的全球人脸识别测试（FRVT）中夺得第一名。
AI独角兽集体求卖身，新一轮洗牌期开始了（2024年05月25日）
- 突然之间，几家明星初创纷纷传出消息，寻求收购。都是大家熟悉的名字、过往战绩也都不错：Adept，估值超10亿美元，由Transformer作者创立；Humane，估值7.5-10亿美元，打造出爆火AI新硬件AI Pin；Stability AI，Stable Diffusion打造者，最早一批AI独角兽。
- 更多公司考虑出售的原因则来自于成本压力、不确定的商业模式以及激烈的市场竞争。
雷军喜提自动驾驶大牛：图森中国CTO王乃岩加盟（2024年05月27日）
- 前图森未来中国CTO王乃岩将加入小米汽车，向小米技术委员会主席、小米汽车自动驾驶负责人叶航军汇报
- 曾被称为是“深度学习应用于目标追踪领域全球第一人”
最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊（2024年05月28日）
- 来自中国电信人工智能研究院，AI领域Fellow大满贯科学家李学龙带队，发布首个能听懂30多种多方言混说的大模型。
- 星辰语音大模型
- 它在国际语音顶会 INTERSPEECH2024 离散语音单元建模挑战赛上，星辰语音识别大模型斩获了语音识别赛道冠军。
- 而他们一早也提出了自己大模型领域布局：1+1+1+M+N：1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。
- 实际上，他们背后搭建了一支700人的AI研发团队，70%以上来自头部互联网和AI明星企业。再加上，AI领域Fellow大满贯科学家李学龙加盟，出任电信CTO，并组建中国电信人工智能研究院（TeleAI）。

6、June

深度学习提升SOTA的tricks大盘点（2024年06月05日）
- 一句话原则：AI performance = data(70%) + model(CNN、RNN、Transformer、Bert、GPT 20%) + trick(loss、warmup、optimizer、attack-training etc 10%) 记住：数据决定了AI的上线，模型和trick只是去逼近这个上线，还是那句老话：garbage in， garbage out。
旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包（2024年06月26日）
- 旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor
- 可以根据输入的视频生成任意持续时间的模仿视频，同时保证角色身份的一致性支持各种驱动视频，如演讲、唱歌、表情包等支持不同的画风（照片、传统绘画、漫画、AI 数字人等）
- Yang S, Li H, Wu J, et al. MegActor: Harness the Power of Raw Video for Vivid Portrait Animation[J]. arXiv preprint arXiv:2405.20851, 2024.

7、July

黄仁勋：我们不想当行业领导者（2024年07月03日）

我们更愿意成为值得信赖的合作伙伴。

我认为，对于初创公司而言，这种心态是必要的。我要告诉你们，作为一个初创公司，每一天都至关重要。我可以毫不犹豫地告诉你们，你们所做的每一个决定、每一项努力、每一次招聘、取得的每一个成就，以及你们所塑造的公司文化，都将在接下来的30天内决定公司的命运——是充满活力、持续成功，还是走向破产。我完全相信这一点，同时我也对自己和团队充满信心。
突破不可解释性！视频异常新检测框架精度90.67%拿下SOTA｜华科&百度&密歇根大学（ 2024年07月04日）
MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限（2024年07月15日）
MoE已然成为AI界的主流架构，不论是开源 Grok，还是闭源GPT-4，皆是其拥趸。然而，这些模型的专家，最大数量仅有32个。最近，谷歌 DeepMind 提出了全新的策略 PEER，可将 MoE 扩展到百万个专家，还不会增加计算成本。
大模型集体失智！9.11和9.9哪个大，几乎全翻车了（2024年07月16日）
也就是问题本身对人类来说，一看就知道问的是算数问题，但对AI来说是一个模糊的问题，并不清楚这两个数字代表什么。
eg：日期、版本号
读博期间应该明确的50件事！（2024年07月22日）
955 神仙公司名单（2024年07月28日）

8、August

英特尔「芯」痛！全球裁员1.5万人，利润暴跌85%（ 2024年08月02日）
- 前有英伟达，后有AMD
- 在传统的通用服务器中，英特尔CPU是绝对的主角。而在基于GPU的服务器中，最重要的是英伟达芯片——一台AI GPU服务器，可能会配置8个英伟达GPU，和1个英特尔CPU。
- 晶体管制程推进迟缓，目前还 PK 不过台积电
- 13/14代酷睿处理器不稳定情况，曾有人测试后发现故障率高达50%，饱受诟病。
英特尔股价暴跌 26%，40 年来最大跌幅（ 2024年08月03日）
北京时间今天凌晨，英特尔股价暴跌逾 26%，单日总市值蒸发达 323.7 亿美元（约合 2317 亿元人民币），经历了 40 年来表现最差的交易日之一。
2024 互联网公司工作时长排行榜出炉！（2024年08月03日）
计算机视觉方向的博士，如何做到一直follow新技术？（2024年08月10日）
- 第一个是积极地和同行交流，不仅仅是同一个实验室的，还可以是不同实验室的connection，我的第二个方法是关注一些自己可能没有什么connection，但是产出质量始终很高的大组
AI失业潮来了，23年游戏行业万人被裁！暴雪员工岗位被AI抢走，悲痛万分（2024年08月17日）
目前大家基本已经达成共识：概念艺术家、平面设计师、资产艺术家和插画师是迄今为止受AI影响最大的群体。
4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源（2024年08月19日）
- 推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。
- Ye J, Xu H, Liu H, et al. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models[J]. arXiv preprint arXiv:2408.04840, 2024.
- https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
- 多模态检索增强
- 多图推理
- 长视频理解，mPLUG-Owl3能够看一部2小时电影，并且4秒就能开始回答用户的问题。
腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈（2024年08月21日）
- 本期机器之心《智者访谈》邀请到腾讯机器学习平台部总经理／混元大模型负责人王迪先生，深入腾讯从 0 到 1 自研万亿级 MoE 大模型的历程。
- 做大模型就是一个在约束条件下怎么样高效地把工程、算法、数据以及业务应用整个串联起来的工作，它对组织能力的要求是非常高的。（小模型上做实验，结论迁移到大模型）
- 其实我们看到，越是坚持这些最基本认知的东西，你会发现大模型它自然会学到很多东西，你越是加很多规则、人工的经验进去，越会发现这个东西不 work，有无穷无尽的麻烦要解决。
- dense 模型 vs MOE 模型
- 现在图像和视频生成领域可能 diffusion 的多一点，尤其在工业界，但是学术上也有全自回归的 model，各有优劣，我觉得还是需要一定的时间去验证它的效果和利弊。
- 目前来讲，统一到 Transformer 这样一个总的框架下，应该是没有太大疑问了，即便是 Sora 用的 DiT，也是用 Transformer 实现的 diffusion model，所以说已经完全离不开 Transformer 了。至于说还要不要 diffusion 这样一套思想，现在还没有定论，因为还有很多的地方需要去实践和实验。
- 场景用底座模型去微调，做好一个场景，反哺底座模型
- 业务团队一定要去了解模型的能力边界在什么地方，哪些是模型应该去解决的问题，哪些是产品的设计和规划上应该去包容的
- 怎么样让模型自动地去评价我们自己的模型好不好，这些能力我们叫 critic model（评价模型），但评价模型的设计，怎么样才能设计好，过往有很好的 NLP 经验的同学就能够设计得更好、更快。当然，并不是说没有这些经验的人做不了，但可能他们对问题的理解，包括做事的速度会略微慢一点。所以我一直说这两个东西都是需要，并且是相互结合的。
- 因为本身 AI 芯片就有一定的坏卡率，包括说网络设备，上万张卡总有坏的时候，那坏了之后，第一个怎么能快速地定位是哪张卡出了问题，然后快速把它踢掉，再快速重新拉起训练服务，这过程中涉及到比如怎么样快速把 checkpoint 写到磁盘上，再重新 load 进来，这个过程如果是两个小时和五分钟，那是有天壤之别，等等这些问题吧。做过大规模集群管理的团队，应该都是有相关经验的。
- 构建异构卡的集群，用不同厂家的卡，以及同一个厂家不同算力单位的卡、不同型号的卡，能不能在一起训练同一个任务？
- 所以我们内部使用一种叫做潮汐调度的方法，比如说白天的量很大，需要很多的推理卡，但晚上量小了，就通过太极平台，把这些卡晚上调度给训练去用，提高卡的利用率。
- 王迪，2008 年加入腾讯，拥有十多年在 AI 领域的深厚技术研发经验，在超大规模生成式大模型、搜广推稀疏大模型、搜索平台、GPU 算力和任务调度等技术领域取得显著成就，目前是腾讯太极机器学习平台和混元大模型技术负责人。
超6亿！文心大模型日调用量半年增长超10倍，AI成百度最强加速引擎（2024年08月23日）
在大模型加持之下，百度文库已经从一款纯粹的 “内容工具” 转变为 “生产力工具”，拥有智能PPT、智能文档、智能画本等上百项多模态AI功能。
计算机视觉毕业找不到工作怎么办？怒刷leetcode，还是另寻他路？（2024年08月23日）
- MOP（money oriented programming）才是王道。
RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好（ 2024年08月26日）
《FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame
Textual Guidance》
时薪高达342元！特斯拉为机器人招募“人类老师”，明确要求：身高170-180cm，每天步行7+小时（2024年08月27日）
近日，特斯拉的一则最新招聘引起了广泛关注：为旗下的 Optimus 人形机器人招募“人类老师”，具体岗位名称为数据收集操作员（Data Collection Operator）。该岗位的工作内容，大体就是穿戴着动作捕捉服和 VR 头盔，根据要求执行站立、行走等特定动作，以此为机器人 Optimus 的训练提供数据支持。
GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！（2024年08月28日）
曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。
一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。
不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……相比之下，其他平台都是128K。
英伟达股价闪崩暴跌2000多亿美元！Blackwell出货延迟，老黄遭华尔街冷眼？（2024年08月30日）
他甚至断言：在某个时刻，所有购买英伟达设备的人，会立即获得回报，因为「the more you buy, the more you save」！
然而他却回避了重要的一点：这些开发者每年也在亏损数十亿美元，如果他们的客户无法获得物有所值的回报，那么这种投入将越来越不可持续。

9、September

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己（ 2024年09月02日）
利用提示工程，让学生尝试教AI完成平时数学作业（不纳入正式考核），期末再让这些AI参加考试。
电脑CPU依然得看英特尔酷睿：新一代性能提升20%，AI能力翻5倍；网友：感谢AMD（2020年09月03日）
英特尔第十一代「酷睿家族」终于登场了！代号Tiger Lake，10nm SuperFin 工艺
英伟达市值暴跌2万亿！一夜蒸发3个英特尔，创美国历史纪录（2024年09月04日）
据悉，美国司法部已经向英伟达发出传票，寻找这家芯片巨头违反反垄断法的证据。

仅看今年的利润，英伟达已经超过了最接近自己的竞争对手——AMD的总销售额。
支付宝突然推出新App，竟想用AI让日常生活开挂（2024年09月05日）
- TA 生动展示了大语言模型的应用如何从理解（ Chat ）转向采取实际行动( Act ）。
- 当产品体验丝滑到「无感」后，人们反而容易忽视沉淀在下面的深刻技术，甚至会有「这也不难做到」的错觉。
  
  支付宝首页下拉就是同样的功能
华为离职副总裁徐家骏：透露年薪千万的工作感悟，太震撼！（2024年09月05日）
《黑神话：悟空》里惊艳的古建场景是如何生成的？（2024年09月07日）
- 在人工智能时代，NeRF（Neural Radiance Fields，神经辐射场） 与 3DGS（3D Gaussian Splatting，3D高斯溅射） 技术成为完成三维重建、新视角合成、3D生成等任务不可或缺的重要工具。
- NeRF 是一种可微的、自动生成的，连续的三维隐式表达方法，最初用于解决新视角生成（Novel View Synthesis，NVS）这个计算视觉里的基础问题。
- 相较于 NeRF，3DGS 是显式的三维表达方式，其设计遵循“大道至简”的原则，用简捷的逻辑构造了三维空间。
北大王立威：理论视角看大模型，为什么AI既聪明又愚蠢 | 智者访谈（2024年09月08日）
- 本期机器之心《智者访谈》邀请到北京大学智能学院教授王立威，从机器学习理论视角看大模型的能力边界，探讨理论对 AI 未来发展的影响。
- 刚才讲的另一类系统，比如说 AlphaGeometry（能够解奥赛级别的几何证明题），以及后来的 AlphaProof，用的是深度强化学习这种方法，而深度强化学习不是今天语言大模型的主要技术方案。它们还有一大特点，也是区别于语言大模型的，是专注于解决特定类型的封闭世界问题（closed-world problem)。——这套思路与 DeepMind 在几年前用 AlphaGo下围棋的方法一脉相承
- 使用机器学习解决数学和科学问题的潜力——人类科学家仍然要做顶层设计，但是其中的某些环节或部分可以用机器学习和人工智能方法更高效地完成
- 机器之心：我们的终极目标是希望 AI 能够独立完成数学证明，并且像伟大的科学家比如爱因斯坦那样，发现新的科学理论。为了实现这个目标，还需要克服哪些主要困难？
- 幻觉
- scaling law
- 解释性
- 泛化性，benchmark
  今天我们的大模型能够处理的任务是非常之多的，不再是一个固定的，像图像分类这样的单个任务。所以我们在讨论泛化的时候，已经不是过去那种狭义的泛化了，甚至我们今天讨论的泛化，是指给大模型一个全新的任务，看它能不能够把这个任务也解决好。所以从这个层面上说，过去的理论就显得比较局限了。
- 大模型时代的理论研究
- 王立威，北京大学智能学院教授，研究兴趣为机器学习。长期从事机器学习基础理论研究，为设计更有效的新算法提供理论指导，并开发基于机器学习的医疗影像诊断算法与系统。近来致力于通过机器学习方法解决科学与数学领域重大基础问题。
  王立威教授已在 NeurIPS、ICML、TPAMI 等国际顶级期刊和会议上发表论文 150 余篇，其中关于图神经网络表示理论的两篇工作分获 ICLR 杰出论文奖与提名奖。担任 TPAMI 编委，并长期担任 NeurIPS、ICML、ICLR 等机器学习顶会的领域主席／高级领域主席。此外，入选 AI’s 10 to Watch，是首位获此殊荣的亚洲学者。
大模型/Sora/世界模型之间是什么关系，对自动驾驶的意义是什么？（2024年09月10日）
“不断理解，不断预测”，这种理解世界的方式，是人类理解世界的方式。这种思维模式就叫做：世界模型。
人经历的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界。这就是人类与世界交互的方式：世界模型。
目前sora存在的缺点
（1）物理交互的不准确模拟
（2）对象状态变化的不正确
（3）长时视频样本的不连贯性
（4）对象的突然出现
SpaceX再创历史，人类首次商业太空行走成就达成！（2024年09月13日）
- 随着“宇宙素人”贾里德·艾萨克曼在距离地球700多公里的太空出舱，人类首次商业太空行走就此完成。
- 北京时间周四晚19：58，这位“北极星黎明”任务的指挥官、41岁的亿万富翁打开舱口，率先走出太空舱，通过“天行者”梯子，以及一根约3.7米长的系绳，在舱外呆了10多分钟。
- 四人分别是亿万富翁贾里德·艾萨克曼和他的朋友前空军飞行员斯科特·“基德”·波提特，与他们同行的还有SpaceX的两名首席工程师莎拉·吉利斯和安娜·梅农。
- 龙飞船
李飞飞携24人最强天团打造「大世界模型」！Hinton站台力挺，获2.3亿融资（2024.09.14）
她将人类智能归结为两大智能，一是语言智能，另一个便是空间智能。
「如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而是一个可以行动的AI」。
戴手表就能检测打鼾？Apple Watch到底用什么诊断「睡眠呼吸暂停」（2024年09月14日）
- 打鼾是导致睡眠质量差的最主要影响因素，医学上称其为睡眠呼吸暂停，表现为睡觉时呼吸多次停止和重新开始。
- 库克会在下一代的Apple Watch中推出检测睡眠呼吸暂停的功能。
刚刚，CVPR 2025新规来了：审稿进入「半实名制」，不负责任的审稿人将被标记并拒稿（2024年09月16日）
黑神话悟空火了，为何没人用H100打游戏?（盘点H100和4090的十点区别）（2024年09月18日）

一张RTX 4090市场价，1.3-1.6W，一张H100 PCIe卡在22W左右，八卡HGX模组210W
聊一聊大模型六小虎生存现状（2024年09月18日）
- 智谱AI、百川智能、零一万物、月之暗面、Minimax、阶跃星辰
- 模型能力增长放缓，各家如何开卷产品差异化？
- 烧钱的游戏还在持续，但资本只垂青强者
- 8月底，零一万物的算法副总裁黄文灏被证实已加盟字节的大模型团队，负责技术项目管理和规划。紧接着，另一位公司的核心成员李先刚也被爆出走，选择返回“老东家”贝壳任职，他曾任过零一万物的法定代表人。
- AGI的等待：冲刺上市，旷日持久
- 2013年，斯派克·琼斯执导的电影《Her》上映了，谁能设想仅仅十余年之后，我们就将遇见自己的萨曼莎呢？
奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍（2024年09月19日）
英伟达创始人黄仁勋，则表示新一代 Blackwell 架构GPU能给o1推理提速50倍。
OpenAI CEO奥特曼，我们谈到AI的五个级别：L1是聊天机器人（ChatBot），L2是我们刚刚达到的推理者（Reasoner），L3是智能体（Agent），L4是创新者（Innovator），能够发现新的科学信息，L5是完整的组织（Organization）。
关于「车路协同vs单车智能」的全方位辩论（2022年09月22日）
- 以静态环境下的动态感知，叠加其空间连续、时间连续、算力调用的特点，可以应对盲区死角、意图判断难等问题，提升感知准招率
  1、前方发生连环追尾事故或建筑物遮挡，路侧感知提前将信息同步给车辆，防止事故；
  2、遇无信号灯、路况复杂的十字路口，通过车-车协同，每辆车可实时获知其他方向来车轨迹意图；
  3、十字路口交叉车流调度，云端基于对交叉车道不同车流量的大数据分析，调整路口红绿灯授时，缓解车流量大的道路拥堵，提高道路资源利用率。
- 车路协同听上去好像很美好、技术上也可以实现，但要想实现大规模商业运作却很艰难，会面临责任归属、法律法规、道德维度、市场监管、成本分摊、价值分配、商业保险等诸多复杂因素，实际上已经超出了技术范畴。
- 用户很难接受在某一区域有自动驾驶，开出覆盖范围就无法继续使用的情况。这样一来，车企如果不想让产品丧失竞争力，就还需要不断开发基于单车智能的自动驾驶，这也将导致车路协同能够提供的帮助越来越少。而车企在自身就可以实现高阶自动驾驶的情况下，也不会再为车路协同付出额外一份费用。

10、October

海外博士一般朝九晚五，国内博士动辄十几个小时科研时间。为什么普遍认为海外博士水平比较高？（2024年10月01）
白龙马西天取经 vs 驴原地拉磨
纯国产万卡集群炼出万亿参数大模型，被这家央企率先做到了！（2024年10月01）
一张人脸照片，Meta眼镜识别全部个人信息，两位哈佛开发者：只为警醒世人（ 2024年10月03日）
pika 1.5重磅升级！万物皆可爆炸，搞笑特效全网病毒式疯传（2024年10月03日）
全新特效Pikaffects，让全网疯狂——任何物体都能被压碎、融化、膨胀、爆炸，甚至还能变成蛋糕被一刀切开。
激光雷达明星崩了！市值缩水96%，危在旦夕。。。（2024年10月04日）
报告显示，在2023年的车载激光雷达市场，中国厂商依然是领跑全球，禾赛科技、速腾聚创、图达通、华为以及览沃等中国激光雷达供应商，合力拿下了全球84%的市场份额。
Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功（2024年10月05日）
Movie Gen，可以生成音效和配乐
Polyak A, Zohar A, Brown A, et al. Movie gen: A cast of media foundation models[J]. arXiv preprint arXiv:2410.13720, 2024.
全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU（2024年10月05日）
这台被部署在英国最强超算 Isambard 2，帮助世界推动了模拟分子、天气预报的研究，下一代超算已经接任。
下一代 Isambard 3 超算，将使用HPE提供的基于NVIDIA Grace ARM的CPU上线接任。
第63届TOP500排行榜显示，尽管 Frontier 不再是榜单中唯一以百亿亿次浮点运算计算的系统，但依旧夺得榜首。
Frontier 被部署在美国田纳西州橡树岭国家实验室，依旧是视觉上最强大系统，其 HPL 得分为1.206百亿亿次浮点运算/秒。
最新AI生图模型Flux1.1刷屏！添加单反相机文件名获得超写实图像，网友：我分不清啊（2024年10月06日）
- 在提示词中模仿单反相机的文件命名格式即可。比如“CR2”就是佳能相机使用的原始图像文件格式，输入“IMG”+随机编号+“.CR2”，就能去除图中的“AI味”，无论人物还是风景都能达到照片级效果。
- 代号蓝莓，最新SOTA文生图模型
- Stable Diffusion原班人马打造
AI逆向绘画火了！一键重绘梵高《星空》，来自华盛顿大学（2024年10月08日）
李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景（2024年10月12日）
数字孪生（digital twin）、数字表亲（digital cousin），用于仿真

Dai T, Wong J, Jiang Y, et al. Acdc: Automated creation of digital cousins for robust policy learning[J]. arXiv preprint arXiv:2410.07408, 2024.
蔚小理华的车端大模型进展到什么地步了？（2024年10月14日）
车圈大变天！激光雷达即将被判死刑？（2024年10月14日）
- 昔日称霸车圈的智驾供应商 Mobileye，近日宣布了一则重大决定——今年内就要立刻关闭激光雷达研发部门，并且终止下一代激光雷达的研发工作！
- 随着今年特斯拉FSD推出了基于“端到端架构”的V12版本，删掉原本30万行C++代码，替换为3000行神经网络之后，系统决策准确度和执行速度都有了质的飞跃。
  
  传统智驾靠的是感知信号与算法堆叠下的缜密逻辑，而端到端靠的是类似“肌肉记忆”的经验。
- 到现在来看，只有阿维塔采用了3颗激光雷达的方案，其他的车型要么是大灯周围的双激光雷达方案，要么是车顶“犄角”式的单激光雷达方案。
- 不同车型、不同智驾功能，对于激光雷达的依赖度都是不同的，有的优先级比较高，一旦遮挡就无法启用；有的则优先级较低，不会影响功能使用。
AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4（2024年10月16日）
大模型 Marco，光腿神气、可盐可甜，场景是跨境电商
实测13个类Sora视频生成模型，8000多个案例，一次看个够（ 2024年10月16日）
Zeng A, Yang Y, Chen W, et al. The dawn of video generation: Preliminary explorations with sora-like models[J]. arXiv preprint arXiv:2410.05227, 2024.
https://ailab-cvc.github.io/VideoGen-Eval/
来自腾讯 AI Lab
骁龙8至尊版登场：CPU牙膏挤爆，AI生成速度创纪录，奥特曼也来助阵（ 2024年10月22日）
- 骁龙 8 至尊版采用台积电 3nm 工艺制造，与骁龙 8 Gen3 相比，CPU 性能提升 45%，能效提升 44%。
- 高通表示，华硕、荣耀、iQOO、摩托罗拉、努比亚、一加、OPPO、红魔、Redmi、真我 realme、三星、vivo、小米和 ZTE 等各大厂商都准备在未来几周内推出搭载骁龙 8 至尊版芯片的机型。
先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了（2024年10月24日）
通义千问2.5 代码模式
- 你在叙述完具体功能需求后，系统会创建一个工作空间，AI 在其中与你协同工作。在后续对话过程中，AI 可以实时查看你的新要求，持续编辑代码。问题随时解决，效果实时呈现，就像是在现实世界中的多人协作一样。
- 这相当于让用户拥有一个 24 小时随时提需求的『贴身程序员』，不用排期、随时上线，且能满足你专属需求。
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
主机厂：小鹏汽车、鸿蒙智行（类主机厂）、蔚来汽车、零一汽车（新能源重卡科技公司）
自动驾驶算法和系统公司：元戎启行、商汤绝影、小马智行、鉴智机器人、英伟达、地平线
自动驾驶生成式AI公司：光轮智能、极佳科技
学术研究型机构：上海人工智能实验室、清华大学MARSLab
刚刚，余凯港股敲钟！地平线开盘大涨28%市值632亿（2024年10月25日）
- 地平线 Horizon Robotics 智驾科技
- 用地平线自己的话来说，他们是一家“市场领先的乘用车高级辅助驾驶（ADAS）和高阶自动驾驶（AD）解决方案供应商”，所以核心产品就是解决方案组合——硬件+软件的总和方案。
- 硬件自然是地平线的征程系列，今年最新的产品是 J6，针对不同车型方案有不同型号，算力从数十TOPS到560TOPS。
- 而软件，同样是地平线提供全栈方案：Horizon Mono、Horizon Pilot 以及 Horizon SuperDrive三种，根据客户不同的需求，提供差异化功能。
- Horizon Pilot 是高速 NOA 解决方案，除主动安全功能外，还具备实现自动上/下匝道、自动变道、高速路自动驾驶，以及自动泊车辅助等功能。到 2023 年年底，已经有超过 25 款车型搭载，比如理想 L7 到 L9 系列，都选择了 Horizon Pilot。
- 2023年，由地平线学者一作发表的业界首个公开发表的端到端自动驾驶大模型 UniAD，荣获 CVPR2023 最佳论文
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
一句话的事儿，手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命（2024年10月26日）
荣耀，视频通话时换脸检测，一句话帮忙点咖啡，一句话帮忙取消自动续费
谷歌这款新概念键盘，治好了我多年的老病（2024年10月27日）

遵循莫比乌斯带的几何形状。没有明显的内外之分，表面有倾斜度，因此你的手可以以几乎贴合的方式使用它。用户可以 360 度地打字，以任何方式握持设备
虽然这只是从 2019 年愚人节开始的一个玩笑项目，旨在推广谷歌输入法（Gboard），但是该键盘并不是什么 AI 生成的效果。它确实有实物是可以工作的。你可以按照已经开源的原理图、3D 可打印的 STL 文件和固件自己构建一个。
22. 靠AI，2年时间大涨4倍！扒一扒你每天都用的这只小绿鸟（2024年10月26日）
在这里插入图片描述
路易斯·冯·安（Luis von Ahn，以下简称冯·安），多邻国的创始人兼CEO。验证码被命名为 CAPTCHA，是“自动区分计算机和人类的图灵测试”（Completely Automated Public Turing test to tell Computers and Humans Apart）的缩写，以一种在线表格测试的形态存在，用来验证用户是真人而非机器人。

苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时（2024年10月31日）
M4 Pro、M4 Max、M4，均采用业界领先的第二代 3nm 工艺。
让机器人拥有人一样「潜意识」，英伟达1.5M小模型就能实现通用控制了（2024年10月31日）
- 如果想在端侧塞进 405B 这种级别的大模型，那真是小庙供不起大菩萨。
- 朱玉可和 Jim Fan 团队（英伟达 GEAR 团队）新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络，但它足以控制人形机器人执行多种机体运动。
- He T, Xiao W, Lin T, et al. Hover: Versatile neural whole-body controller for humanoid robots[J]. arXiv preprint arXiv:2410.21229, 2024.

11、November

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位（2024年11月03日）
- State of AI发布了2024产业报告，也是调研团队发布的第七份年度报告，从研究进展、行业局势、现有政策、安全问题、未来预测等角度出发，对人工智能行业的现状和预期进行了深度分析。
- 美国对中国实验室实施的制裁对其生产高性能模型的能力影响有限，因为库存、获批硬件、走私和云访问的结合使国内能够构建高性能的（V）LLM，但国内的半导体产业发展仍然较为混乱。
四家亏损严重的芯片龙头企业，前景不妙！（2024年11月04日）
2024年前三季度
- AI芯片龙头寒武纪今年股价暴涨了3倍左右，前三季度亏损超过7亿元。
- 芯片设计龙头芯原股份股价一路下滑，前三季度亏损接近4亿元。
- CPU龙头龙芯中科股价从183元下滑到今天，前三季度亏损3.4亿元。
- 光芯片龙头源杰科技股价从339元到现在150元左右，前三季度亏损55万元，但是第三季度亏损就超过1100万元。
明星飞行汽车破产，烧光100亿仍难载人试飞…（2024年11月05日）
- 曾估值235亿的独角兽 Lilium（德国），扛不住了。
- 成立9年以来，Lilium累计筹集了14.5亿美元（约103亿元）的资金，腾讯是主要投资人之一。
- 破产的消息在低空领域炸响，任谁都想不到，这家曾被称为低空领域“特斯拉”的公司，没落速度如此之快，甚至就在四个月之前，Lilium才刚刚在中国开了分公司。
- eVTOL 是 Electric Vertical Takeoff and Landing 的缩写，即电动垂直起降飞行器，是一种采用电力驱动、能够垂直起降的新型城市空中交通工具
无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点（2024年11月08日）
- 自动驾驶汽车 Waymo 8月份在旧金山的日均服务单量已超8800单，远超同期的出租车工作日日均6307单。
- 今年3月起，Waymo在旧金山半岛扩大了服务范围。紧接着6月再次获批，在旧金山全域开放无人驾驶出行服务。
- 谷歌母公司 Alphabet 还在加大对 Waymo 投资，为进一步扩张，研发自动驾驶技术注入新的动力。
- 面对 Waywo、特斯拉等「洋萝卜」的奋起直追，中国「土萝卜」还需要跑得更快，飞得更高。
怎么才能优雅地向博士导师表达「这周科研没什么进展」？（2024年11月11日）
国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代（2024年11月14日）
- 生数科技推出的 Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！
- 只要上传多个角色、物体和地点的图片，就能立即生成每个物体一致的场景，人手制作一部大片的时代真的来了吗？
- 这标志着，视觉模型进入了全新的「上下文」时代，AGI离我们更近了。
AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费（2024年11月10日）
PixVerse V3，来自国内AI视频公司爱诗科技。
当审稿人给的意见，你无法修改的时候怎么办？（2024年11月11日）
- Modify the paper
- Teach the reviewer something new
- Out of scope
- 感谢您的建议，这正是我们未来需要努力的方向，我们也正在进行这方面的工作，您将在我们未来的工作中看到这方面的研究
Scaling Laws终结，量化无用，AI大佬都在审视这篇论文（2024年11月13日）
- 研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。
- 直觉可能是，当你训练更多的数据时，更多的知识被压缩成权重，给定的扰动会对模型性能造成更大的损害。
- 推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。
自动驾驶界秋名山车神！CoRL杰出论文让自驾车学会漂移，机器人整出新活（2024年11月13日）
CoRL 是“Conference on Robot Learning”（机器人学习会议）。这是一个专注于机器人学习和相关领域（如机器学习、控制理论、计算机视觉等）的学术会议

在丰田 Supra 和雷克萨斯 LC 500 上进行的大量实验表明，在不同路况下使用不同轮胎时，单一扩散模型可使两辆车实现可靠的自动漂移
刚刚，谷歌宣布35岁Keras之父Francois Chollet离职（2024年11月14日）
单刷CVPR的男人——Xception，深度学习的启蒙老师之一
大模型应用，有哪些简单却巧妙的上分方法？（2024年11月15日）
客观比不过比主观，主观比不过 cherry pick
不做Sora背后：百度的多模态路线是什么？（2024年11月16日）
iRAG巧妙地将认知智能（检索）与生成智能（创作）结合在一起，取长补短，相得益彰。
如今百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。
生成证件照，https://github.com/Zeyi-Lin/HivisionIDPhotos
目标检测和感受野的总结和想法（2024年11月16日）
实际感受野依然是一个超参数，他是会随着训练的过程发生变化，我们无法准确计算出来实际感受野，但是通过分析anchor，实际感受野和理论感受野，我们知道了anchor<实际感受野<理论感受野，所以anchor还是会被理论感受野的大小所限制
Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in neural information processing systems, 2016, 29.
实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定（2024年11月17日）
- 背靠腾讯独家的公众号、视频号等高质量内容，元宝搜索的结果非常详细
- 这次元宝2.0更新的另一个亮点是集成了腾讯文档、电脑管家和输入法，各应用生态全部打通！
- 当运行了电脑管家之后，AI助手就会默认在后台运行，你可以在上网冲浪的时候随时搜索、解释或翻译任意关键词。
怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了（2024年11月17日）
Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题（ 2024年11月18日）
Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习（2024年11月18日）
- OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。
- 表征学习，也称为特征学习，在机器学习领域中占据着重要的地位。它是一种将原始数据转换成为能够被机器学习有效开发的数据的技术集合。常用的方法包括主成分分析（PCA）、独立成分分析（ICA）、自动编码（Auto-encoders）、矩阵分解、各种聚类分析及其变形等。
对标o1，Kimi放出了最能打的国产模型（2024年11月18日）
Kimi 的最新一代推理模型 k0-math，在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。
逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂（2024年11月19日）
- 通过招募1052名参与者，涵盖了不同性别、年龄、地区等，每人接受GPT-4o采访了2个小时。
- 然后将得到的访谈内容作为文字提示，输入语言模型中，复刻出每个个体对应的AI智能体。
- 所有智能体在综合社会调查中的回答，与原参与者两周后自我复现答案准确率接近85%，并在人格预测、实验复制中表现与人类相当。
登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做（2024年11月19日）
- 2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年，这项研究发表在 Nature 上并开源了出来。
- 此后，AlphaChip 激发了 AI 芯片设计方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署，并由外部芯片制造商扩展。
- https://github.com/google-research/circuit_training
腾讯AI大牛，被曝投身视频生成创业（ 2024年11月19日）
刘威——腾讯杰出科学家、腾讯混元大模型技术负责人之一，腾讯 AI Lab 早期的三剑客

创业公司，Video Rebirth，视频生成，行业内有快手可灵、爱诗科技、生数科技等团队的AI视频应用
国产4o大模型，秒懂国风李子柒（2024年11月20日）
昆仑万维的Skyo，基于天工大模型4.0 4o版（Skywork 4o）打造。
实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍（2024年11月20日）
昆仑万维开发的 Skyo 实时语音对话助手，Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造
美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国（2024年11月20日）
3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校（2024年11月20日）
大会一共收到了全球高中生提交的330个项目，最终，评出4篇获奖论文，21篇Spotlight，7.5%的中奖率一点不亚于硕士博士的竞争激烈程度。
AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论（2024年11月24日）
GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医（2024年11月25日）
除了「GAN」之父的名号，他还是「花书」的作者，这本书原名就叫做「深度学习」
Goodfellow在斯坦福大学计算机科学系读完了本科和硕士，师从AI大牛吴恩达。
博士生涯，就读于加拿大蒙特利尔大学，师从Yoshua Bengio 和 Aaron Courville，
AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？（2024年11月25日）
和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情（2024年11月25日）
- 11 月 23 日，香港科技大学举行了今年度的学位颁授典礼。英伟达创始人和 CEO 黄仁勋又新增一个荣誉工程学博士头衔，与他一同获得荣誉博士学位的还有著名影星梁朝伟、2013 年诺贝尔化学奖得主 Michael Levitt、菲尔兹奖得主 David Mumford。
- 我们需要后训练，也就是深入学习特定技能的过程。后训练涉及强化学习、人类反馈、人工智能反馈、合成数据生成、多路径学习等多种技术。
- 核心在于，你开始进入一个特定领域的深度学习，试图深入理解其中的某些内容。这就是后训练的过程。一旦你选择了一份职业，你会再次进行大量的学习。
- 然后，在后续阶段，就到了我们所说的 「思考」。这可以被称为 test time scaling。在这个阶段，有些问题的答案可以直截了当地知道，而有些问题则需要你将其分解，逐步追溯到第一性原理，再从原点出发，为每个问题找到解决方案。这可能需要你进行迭代，可能需要你分情况讨论，模拟不同的结果。
博世将裁员5500人，汽车行业寒冬来了？（ 2024年11月26日）
大模型创业太累大牛逃回大厂：融资1亿美金捉襟见肘，没日没夜加班胖了30斤（ 2024年11月26日）
Yi Tay，曾是Reka AI联合创始人，也曾是谷歌大模型PaLM、UL2、Flan-2、Bard的重要参与者。
2024全球无人机市场洞察报告（ 2024年11月27日）

微型化、高速长续航化、智能化
遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度（2024年11月27日）
- Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.
- 百度，Hestness J, Narang S, Ardalani N, et al. Deep learning scaling is predictable, empirically[J]. arXiv preprint arXiv:1712.00409, 2017.
周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代（2024年11月28日）
- 11月初，ChatGPT正式推出AI搜索体验，成为一款搜索引擎；11月中，奥特曼正式官宣ChatGPT新域名——chat.com，据称为此豪掷了1500-2000万美金。
- 我们可以根据其中的「AI含量」将路线简单分为三个阶段——1.0（网页搜索引擎）、2.0（答案生成引擎）、3.0（多模态创作引擎）。
- 拍照问问
当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘（2024年11月28日）
男生看见雷军路过，直接冲过去递简历，结果…（2024年11月28日）
吴恩达出手，开源最新Python包！助力开发者大模型开发！（2024年11月29日）
pip install aisuite
统一接口设计，支持多个 AI 提供商的模型
当前，aisuite 支持的提供商包括：OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace、Ollama
端到端已来，智驾仿真测试该怎么做？（2024年11月29日）
过去，智能驾驶方案一直是按照感知、决策、规划、控制这类规则驱动（rule-based）的模块化方法推进，然而规则驱动的模块化方案存在“规则难以穷举、ODD边界模糊、扩展与维护升级困难”等局限性。因此端到端的学习驱动（learning-based）方案应运而生。
美芯片新禁令下周出台，100+公司或列入实体清单！（2024年11月29日）
深入浅出，算法工程师的职业生涯发展之路（2024年11月30日）
- 夯实技术基础阶段（工作1-3年）
- 解决业务问题阶段（工作4-5年）
- 提升软实力阶段（工作6-8年）
- 扩大影响力阶段

12、December

腾讯AI视频生成曝光！与Sora同提示词PK，你来投票（2024年12月01日）
提示词：一只大象站在漂浮在蓝色水面的白色轻薄床单上来回踱步。
你说AI它懂物理吧，大象这么重压上去居然不沉底？但你说他不懂物理吧，床单被踩出的褶皱好像又是那么回事。
2024年AI投资138亿美元暴增6倍！OpenAI市场份额下降16%，Anthropic谷歌双赢（ 2024年12月01日）
设计模式：RAG（Retrieval-Augmented Generation），而非微调
RAG的工作流程通常包括以下几个步骤：
- 检索：根据用户的查询内容，从外部知识库中检索出最相关的文档或段落。这一步通常使用各种搜索引擎技术，如倒排索引、向量检索等，以确保快速且准确地找到相关信息。
- 增强：将检索到的相关信息与用户查询一起嵌入到一个预设的提示词模板中，以增强模型对特定问题的理解和回答能力。
- 生成：将经过检索增强的提示词内容输入到大型语言模型中，以生成所需的输出。这一步通常利用预训练的序列到序列模型，如T5、BART等，来生成连贯、准确且信息丰富的回答或文本。
马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋（2024年12月01日）
吉利系智驾或再将整合（2024年12月03日）
Smart汽车（奔驰和吉利）与极斯的智驾团队正在接触，未来双方在智驾上或许有合作的可能性。
Smart汽车与极斯同时作为吉利旗下的整车品牌，随着吉利最近大规模整合旗下各个整车品牌，Smart汽车与极斯在智驾方面合作的可能性非常高。
腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放（ 2024年12月03日）
目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。
HunyuanVideo
“云计算一哥”一口气发布6个大模型、3nm芯片！多模态还要搞Any-to-Any（2024年12月04日）
亚马逊CEO Andy Jassy 亲自站台 re:Invent24，发布自家新款AI多模态系列大模型，名曰 Amazon Nova。

将来我们不仅要Speech to Speech，更要Any-to-Any！

洞悉了背后的实用主义逻辑，也就不难理解，亚马逊云科技为何选择在这个时间节点上发布一系列多模态大模型，还是因为客户有需要。这种需要，具体而言，就是客户在模型上的选择，毕竟“没有一个模型可以一统天下”，每个模型都有自己所擅长的领域。
[高中辍学天才、谷歌ViT三大将集体跳槽OpenAI！组队Sora决战AGI]
(https://mp.weixin.qq.com/s/OtMKeLnQQNZOUcLv4BTv0g)（2024年12月05）
OpenAI从谷歌DeepMind挖走了3名顶级工程师！
2020年曾一起提出了神经网络架构Big Transfer (BiT)
2021年作为共同一作发布的论文 ViT
豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude（2024年12月05日）
Doubao-Coder

解决难题，闭源模型普遍优于开源模型
Liu S, Zhu H, Liu J, et al. FullStack Bench: Evaluating LLMs as Full Stack Coder[J]. arXiv preprint arXiv:2412.00535, 2024.
罕见！云计算一哥CTO，现场不发产品只讲教训（2024年12月06日）
亚马逊云科技的CTO——Werner Vogels
Innovation Driven by Customer Needs.
Lesson1：未雨绸缪
Make evolvability a requirement.
Lesson2：化繁为简
Break complexity into pieces.
Lesson3：各司其职
Align organization to architecture.
Lesson4：小而精美
Organize into cells.
Lesson5：未卜先知
Design predictable systems.
Lesson6：机器代劳
Automate complexity.
哪吒CEO张勇又曝离职！去大力牛魔王造货车了 (2024年12月07日)
加盟物流商用车品牌“大力牛魔王”
把机器人做成人形，意义何在？（2024年12月07日）
- 马斯克做人形机器人的最底层原因是第一性原理。根据第一性原理，首先，机器人做成人形就能用人的视频数据训练机器的AI，其次，人类的工具都是适应人的。
- 人型机器人最强的优势，那就是其实它可以是一个人的“数字孪生”
严禁AI评审！CVPR 2025重申大模型审稿0容忍，一首拒稿小诗爆笑全场（2024年12月08日）
曾硬刚小米，估值 60 亿美元的独角兽被宣布破产！（ 2024年12月09日）
PMF（Product Market Fit），指的是产品市场匹配度
2014年，柔宇科技率先成功开发0.01毫米全球最薄柔性显示屏引发行业关注。
2015年7月，柔宇科技正式启动了世界上首条超薄柔性显示模组和柔性传感器的量产线。
产线投产后仅5个多月，柔宇科技便发布了全球第一款可折叠柔性屏手机FIex Pai柔派手机，8999元起售。
o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！（2024年12月09日）
美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？
哪吒CEO张勇确认下岗！实控人走到台前，全员持股，出海求生（2024年12月09日）
张勇长期在销售一线打拼，曾用4年的时间把北汽新能源的年产销量从0做到了15万台。让北汽新能源成为了国内首家销量突破10万的纯电动车企。
2022年1月，张勇带领哪吒汽车实现累计销量10万辆，同年10月，累计销量达到20万辆，整个2022年，也是哪吒汽车的高光时刻，以年销15.21万辆的成绩力压蔚小理成为新势力销冠。
Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番
- 清华NLP实验室刘知远教授团队，最新提出大模型的密度定律（densing law），表达形式让人想到芯片领域的摩尔定律：
- 大约每过3.3个月（100天），就能用参数量减半的模型达到当前最先进模型的性能水平。
- 模型高性价比有效期不断缩短。
被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！（2024年12月10日）
大众集团爆发大罢工！员工挤满总部广场，9大工厂停产（2024年12月10日）
Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩（2024年12月10日）
Plus会员（每月20刀）和Pro会员（每月200刀）的权益不一样。
Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI（2024年12月10日）
Sora Turbo
这次，OpenAI着重介绍了Sora的几项功能：Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。
大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora（2024年12月10日）
「 Sora 这种，无论多火，百度都不去做。」公开场合谈及此，李彦宏态度明确。
百度要做的是基建，帮更多用户做出自己的 Sora ，打造无数个「超级有用」的多模态应用。
大模型训练的本质是什么？以及大模型训练的核心要点（2024年12月10日）
目标函数优化
数据驱动学习
高纬空间的拟合
泛化和正则化
计算资源和分布式计算
最终目标
Sora/可灵/海螺/混元等大PK！多场景对比，现在谁是最强视频生成模型？（2024年12月11日）
诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注（ 2024年12月11日）
一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明（2024年12月11日）
引用超85000次的经典论文 GAN 获 NeurIPS 2024时间检验奖后，它的起源和背后故事也被抛了出来。
Robotaxi全球三强之一突然倒下：烧光700亿落地百余辆…（ 2024年12月12日）
Cruise，这家自动驾驶赛道曾经的明星独角兽，和Waymo、百度Apollo并列三强的Robotaxi玩家，烧光700亿后，走向自己的终局。
Waymo、Apollo的落地进展，以及小马、文远等等L4玩家成功上市，也说明无人驾驶正在迎来新又一波高潮。
Cruise的退出，反倒更好的证明，L4从技术体系、落地场景、商业模式、运营管理等等，都是和L2+完全泾渭分明的另一桩生意。
贾樟柯李少红都用AI拍电影了，还传递经验：哪个功能最实用？（ 2024年12月12日）

快手可灵。联手国内最知名的9名影视工作者：李少红（《大明宫词》）、贾樟柯（《三峡好人》）、叶锦添（《英雄本色》）、薛晓路（《不要和陌生人说话》）、俞白眉（《战狼2》）、董润年（《年会不能停！》）、张吃鱼（《独行月球》）、王子川（《朱同在三年级丢失了超能力》）、王卯卯（“兔斯基”原创者）。每人和AIGC创作者打配合，用可灵生成，各AIGC了1部3-5分钟的电影短片，涵盖奇幻、志怪、亲情、动画等多种类型。
Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命（2024年12月13日）
- Sivakumar V, Seely J, Du A, et al. emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography[J]. arXiv preprint arXiv:2410.20081, 2024.
- https://github.com/facebookresearch/emg2qwerty
Ilya宣判：预训练即将终结！NeurIPS现场沸腾（2024年12月14日）
继李飞飞、Bengio、何恺明之后，在刚刚的NeurIPS 2024中，Ilya Sutskever最新演讲也来了。
在谈到未来的发展方向时，Ilya提到了“Agent”和“合成数据”的概念。
李飞飞、Bengio和何恺明在NIPS干了什么！（2024年12月15日）
From Seeing to Doing
直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”（2024年12月15日）
众所周知，海淀区素有“中国硅谷”之称
从骁龙8至尊版，我看到了AI手机的未来 | 智在终端（ 2024年12月17日）
CPU+GPU+NPU
在猛攻性能的基础之上，高通在这一代骁龙旗舰芯片上，又着重强调了性能与功耗的平衡。
和腾讯混元的合作中则提到，双方将基于骁龙8至尊版共同推动混元大模型7B和3B版本的终端部署。
Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦（2024年12月18日）
新增的「场景元素」功能了。我们可以随意上传自己想要的角色、物体、服装、地点和场景设置，来创建想要的镜头。

如今，巴黎世家、Fenty、Vogue在内的主要品牌，都已经利用Pika模型生成创意的社交广告。
图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈（2024年12月20日）
作为「全球自动驾驶第一股」，图森未来在 2021 年成功登陆纳斯达克

陈默直言，L4 级自动驾驶要实现商业化，必须在营运成本上比人工驾驶更有优势，而这一点在当前技术和市场环境下遥遥无期，因此图森转向动漫游戏，正是看中了该市场的盈利能力和持续增长潜力。

做不到让单车成本低于传统人工驾驶

对于 L4 级无人驾驶，如果有公司能率先成功，一定是特斯拉。因为特斯拉是唯一同时掌握软硬件的公司，既有自己的车，又有自己的软件，而且因为销量大，对供应商的议价能力很强。

大模型只是一个工具，它可以应用在各个行业，目的和无人驾驶一样，都是为了降低成本。

机器之心：那现在的图森未来是一家什么公司？

陈默：是一家利用人工智能技术做动漫游戏的公司。
o3 发布了，摔碎了码农的饭碗（2024年12月23日）
为什么不是 o2？因为为了避免版权纠纷，OpenAI 放弃了 o2 的命名，直接叫 o3。
o1 仅仅是验证了 LLM+RL 的范式是跑的通的，但我们并没有认真玩儿。o3 呢，就是用这个范式认真玩儿了，通过 scaling up 的方式来把 LLM+RL 的范式真正的威力给训了出来。
苹果要做智能门铃了？？？（2024年12月23日）
据古尔曼报道，这款新的智能门铃将配备公司的 Secure Enclave 芯片，它专门负责存储和处理 Face ID 信息，与系统其他硬件分开，处理逻辑和其他苹果设备上的生物识别登录信息类似。
昆仑万维方汉：大模型的技术红利在消退，商业模式创新者将成赢家 | MEET 2025（2024年12月23日）
- 昆仑万维董事长兼CEO方汉
- 《智能边界：AI大模型如何推动应用创新》为主题分享了他的所见所闻、所思所想
- 天工大模型1.0->4.0
- 大家可以看到，现在在全球市场上疯狂买量的AI企业一定是中国企业，因为所有的中国企业都在拼命地打磨自己的产品的盈利模式，而不是像美国同行一样有充足的资金去做更深层的工作。
深度学习工作：从追求 SoTA 到揭示新现象（2024年12月25日）
总之我希望社区看这些工作的时候，不要过多讨论 xxx 是不是通往 AGI（通用人工智能）的路子，以及 xxx 的本质是不是就是 xxx，而是分享我们能从新方法看到什么新现象。新的现象才孕育着新的可能
微软开源视觉语言模型！能够执行超过10种不同的视觉任务，检测、分割、识别一切图片（2024年12月25日）
- 最近，Microsoft 推出多模态视觉语言模型 Florence-2，能执行超10种视觉任务，如图像字幕、目标检测等，通过统一表示简化多任务处理，依托FLD-5B数据集实现高精度，采用seq2seq架构提升学习效率
- 可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等，整合到一个统一的框架中，帮助模型在不同的任务之间共享知识，提高学习效率。
- 代码链接: https://huggingface.co/microsoft/Florence-2-large
- 在线演示：https://huggingface.co/spaces/gokaygokay/Florence-2
- 上传一张超市货架的照片，让其精准找出牛奶的所在位置。
  上传一张公园里的照片，让模型给该图像起一个对应的标题。
  上传一张果园果树的照片，让模型解释一下该果树上有多少可摘的水果。
英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表（2024年12月27日）
距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。
不过，老黄手里还有一张「绝对王牌」——NVLink。NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。
突发！OpenAI官宣成为盈利性公司（2024年12月27日）
- 非营利性架构似乎很合适，于是我们通过多种形式筹集捐款，包括现金（1.37 亿美元，其中不到三分之一来自埃隆・马斯克）以及计算额度和折扣（从亚马逊获得 180 万美元，从微软 Azure 和谷歌云各自获得 5000 万美元或更多）。
- 选择一种对使命的长期成功最为有利的非营利 / 营利性架构。
沉淀·静水流深——机器之心2024年度AI榜单揭晓（2024年12月27日）
吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！（2024年12月27日）
- Suchir Balaji
- 11月26日，Balaji 刚刚度过自己的26岁生日。这个前途大好的年轻工程师，在自己的公寓中被发现死亡。
- 在OpenAI任职近4年期间，Balaji 展现出了卓越的才能，从中脱颖而出。在此期间，他参与了ChatGPT后训练阶段的研发，以及o1推理、GPT-4预训练，和WebGPT强化学习过程。
- 在OpenAI，Balaji曾帮忙收集和整理互联网上的数据，用于训练模型。但他认为这种做法不公平，于是在8月辞去了公司职务。
- Balaji所持有的OpenAI股票，足够他在日后购置一套房产，经济上完全没有后顾之忧。
- 他举报说这些AI科技巨头可能正在违反版权法。
2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025（2024年12月27日）
- 本次量子位MEET 2025智能未来大会上，智谱COO张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向，以及企业和个人的科技战略构建。
- 记得去年刚刚开始做商业化的时候，智谱当时还是5毛钱1000个tokens，但今天最低已经到了5分钱100万个tokens——这是1万倍。一条曲线是能力上升，一条曲线是成本下降，带来的是什么？带来技术能力快速地落地和应用，这是背景。
雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！（2024年12月29日）
雷军再次出手，以千万级薪酬招揽 DeepSeek 核心研究员、95后AI天才罗福莉。这位曾在国际顶会一次性发表8篇论文的技术大牛，有望领军小米AI大模型团队。
你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型（ 2024年12月29日）
- 在 2024 年的尾声，可灵 AI 给所有用户送上了新年大礼包：全新的「可图 1.5」和「可灵 1.6」，目前已全量上线。
- 让这位 AI 模特换上指定款式的服装，再使用一下可灵图生视频功能，一条精美的服装展示视频这不就有了吗？
- 自今年 6 月发布以来，可灵 AI 至今已服务超过 600 万用户，生成 1.75 亿张图片和 6500 万个视频。
谷歌劈柴立军令状：必斩OpenAI，夺回第一！（2024年12月29日）
- 谷歌CEO劈柴在年度战略会议上放出狠话，2025年将是AI领域生死存亡之年。一场足以改变AI未来走向的巅峰对决，即将在2025年全面打响。
- OpenRouterAI的数据显示，谷歌旗下的 Gemini 在开发者中的市场份额从9月份的约5%，直接飙升至>50%市场份额，遥遥领先，连带股价也上涨了14%。
DeepSeek V3“报错家门”：我是ChatGPT（2024年12月29日）