通义文生视频模型升级,天工推理模型正式上线,微软开源小模型Phi-4!AI Weekly『1月6-1月12日』

ops/2025/1/17 1:49:23/

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

关于AI Weekly

马化腾谈及AI时说:“我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇,所以我们觉得非常重要。”

AI Weekly回来了!

省流版摘要

  1. 阿里发布通义万相2.1:文生视频,优化建模能力,提升1080P视频编解码效率。

  2. 阿里推出通义灵码AI程序员:支持多语言,支持VS Code、JetBrains IDEs,“面向对话编程”。

  3. 天工大模型4.0 o1/4o版上线:推理模型,实时语音功能。

  4. Anthropic计划融资20亿美元:估值600亿美元,美国估值第五高的初创公司。

  5. 微软开源小模型Phi-4:140亿参数小模型,追求高“性价比”。

  6. 谷歌Gemini团队并入DeepMind:如题。

1. 阿里发布通义万相2.1

1月9日,阿里通义团队在其官方微信公众号上宣布推出通义万相的2.1版本。通义万相可以简单理解为AI生图和AI生视频版的“通义千问”,同样由阿里通义团队自研的文生图和文生视频模型提供支持。

本次的2.1版本中,阿里发布了最新的文生视频模型Wanx 2.1Wanx 2.1发布不久就在AI视频模型排行榜VBench上夺得第一名,主要优化是:增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,并且首次实现了中文文字视频生成。

2. 阿里推出通义灵码AI程序员

1月8日,阿里云正式上线了一款名为“通义灵码AI程序员”的产品。通义灵码看名字就知道,和上面的通义万相一样,都是通义家族的,只不过这次是针对“编程”。通义灵码同时支持VS Code和JetBrains IDE;并且支持多种主流语言,比如Java、Python、Go、JavaScript、TypeScript、C/C++、C#等。使用方面则是“全程对话协作”,其实对标的就是 GitHub Copilot 这样的AI编程工具。

国产模型里,通义模型还是非常值得推荐的。单就Coding专项而言,qwen2.5-72b-instruct-turboqwen2.5-coder-32b-instruct分别位列LiveBench排行榜的第6名和第7名。

有一说一,通义灵码的官网挺漂亮的。

3. 天工大模型4.0 o1 版上线

1月6日,昆仑万维宣布正式上线天工大模型4.0的o1版和4o版,支持网页端和app端,面向所有用户开放。在此之前,天工4.0 o1版处于邀测状态。

别的不说,昆仑万维这模型的名字起的真是太露骨了,太直接了。从名字就能看出,天工4.0 o1版对标的是OpenAIo1,是一个推理模型;4o则对标的是GPT-4o,是一个通用模型。据官方介绍,天工4.0 4o版有实时语音对话的多模态能力,这一功能和ChatGPT的高级语音模式是一样的。

4. Anthropic计划融资20亿美元

AI这一行,尤其是大模型,实在是太烧钱了!据传Anthropic(开发Claude的AI初创公司)正与投资者谈判,计划筹集20亿美元资金。此次融资由Lightspeed Venture Partners领投,若融资成功,Anthropic将以600亿美元的估值成为美国估值第五高的初创公司。此前,Anthropic已获得大佬亚马逊和谷歌的巨额投资。亚马逊向Anthropic投资了40亿美元,成为其主要云服务提供商。

网友:Anthropic快点融资吧,有钱了就能发布Claude 3.5 Opus了!

5. 微软开源小模型Phi-4

1月8日,微软在Hugging Face平台正式开源了小模型Phi-4。称Phi-4为小模型的原因是其参数量小,仅有140亿,对计算资源的硬性要求小;从参数量可知,Phi-4对标的是同样为小模型的GPT-4o miniPhi-4首次亮相于2024年12月12日,训练时使用了合成数据和中期训练(midtraining)技术,主打质量和成本的平衡,也就是“性价比”。

然而,有网友表示,Phi-4基准测试结果亮眼,但部署后实际体验不佳。具体效果还需要实测还能得知。

6. 谷歌Gemini应用团队并入DeepMind

近日,谷歌宣布将AI StudioGemini Developer API团队整体并入旗下的研究部门DeepMind。可能小伙伴们对谷歌Gemini比较熟悉,我之前也介绍过很多次了。DeepMind是谷歌内部另一个重量级的老牌AI研究团队,多年前击败围棋世界冠军的AlphaGo就是DeepMind团队开发的。

谷歌Gemini在生成式AI浪潮爆发后的这两年属于是“后来者居上”的典型了,最开始被GPT-4吊打,结果在Gemini 1.0模型发布一年后凭借Gemini-Exp-1206Gemini-2.0-Flash和推理模型Gemini-2.0-Flash-Thinking华丽的逆袭了!


精选推荐​​​​​​​


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。


http://www.ppmy.cn/ops/150688.html

相关文章

【Go】Go Gin框架初识(一)

1. 什么是Gin框架 Gin框架:是一个由 Golang 语言开发的 web 框架,能够极大提高开发 web 应用的效率! 1.1 什么是web框架 web框架体系图(前后端不分离)如下图所示: 从上图中我们可以发现一个Web框架最重要…

基于YOLOv8与CGNet的鸟类智能识别系统 深度学习图像分类 鸟类目标检测与分类 图像特征提取 模型优化与应用 数据可视化(源码+指导+定制)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

科技快讯 | 抖音治理AI造假地震图片;投影仪也玩三折叠;京东发布“AI京医”大模型

智谱 GLM 大模型在模型幻觉排行榜中居首,事实一致性达 98.7% 近日,智谱旗下GLM-4-9B模型在HHEM-2.1-Open幻觉评估模型排行榜中,以1.3%的幻觉率排名第一,超越了OpenAI的GPT系列和Google的Gemini系列等世界顶尖模型。信息来源于智谱…

C#中的Span

一、引言 在 C# 开发的广袤天地里,性能犹如一把高悬的达摩克利斯之剑,时刻影响着应用程序的质量与用户体验。从响应迟缓的界面交互,到耗时良久的数据处理,性能瓶颈如同顽疾,阻碍着软件的高效运行。无论是追求极致流畅…

PyCharm文档管理

背景:使用PyCharmgit做文档管理 需求:需要PyCharm自动识别docx/xslx/vsdx等文件类型,并在PyCharm内点击文档时唤起系统内关联应用(如word、excel、visio) 设置步骤: 1、file -》 settings -》file types 2、在Files opened i…

iOS - 底层实现中涉及的类型

1. 基本类型定义 // 基础类型 typedef unsigned long uintptr_t; // 指针大小的无符号整数 typedef long ptrdiff_t; // 指针差值类型 typedef unsigned int uint32_t; // 32位无符号整数 typedef unsigned long long uint64_t; // 64…

利用 Java 爬虫获取 1688 商品评论的实践指南

在电商领域,商品评论是消费者决策的重要参考因素,同时也是商家了解产品反馈、优化服务的关键数据来源。1688 作为国内知名的 B2B 电商平台,拥有海量的商品评论数据。本文将详细介绍如何利用 Java 爬虫技术获取 1688 商品评论,并提…

利用 Python 爬虫获取 1688 商品评论的实践指南

在当今电商蓬勃发展的时代,商品评论成为了消费者决策的重要依据,同时也为商家提供了宝贵的市场反馈。1688 作为国内知名的 B2B 电商平台,拥有海量的商品评论数据。通过 Python 爬虫技术,我们可以高效地获取这些评论数据&#xff0…