【布客技术评论】大模型开源与闭源:原因、现状与前景

ops/2024/11/14 3:01:09/

在人工智能领域,大模型的开源与闭源一直是一个备受争议的话题。近期,某大厂厂长说了“开源模型永远超不过闭源模型”,结果,脸书就发布了开源模型Llama3,超过了OpenAI 的闭源模型 GPT4。本文将探讨大模型开源与闭源的原因、当前状况以及未来前景,以期为读者提供深入的理解和分析。

算力稀缺性的考量

算力,作为人工智能领域的核心资源,对于大模型的训练和应用至关重要。当算力稀缺时,开发者往往倾向于选择闭源模式以赚取利润。这是因为算力稀缺时,训练模型的门槛较高,入局的玩家就少,产品就具有盈利的可能。

然而,当算力不再稀缺,开发者就无法通过闭源模型提供服务获得足够的利润,他们可能会倾向于选择开源模式。开源不仅可以帮助开发者赚取名声,提升个人或团队的知名度,还能够促进技术的创新和进步。通过开源,开发者可以吸引更多的社区参与和贡献,共同推动人工智能技术的不断完善和发展。

文生图模型就是个很好的例子,此类模型中,StableDiffusion 和 NovelAI 是开源的,MidJourney 和 DALLE3 是闭源的(其前身DALLE2也是开源的)。然而模型不仅仅指代架构,还包含模型参数。如果我们按照不同参数统计模型个数,开源社区中的 StableDiffusion 模型数量远远多于其它架构的模型,并且远远多于大语言模型的个数总和。

究其原因,StableDiffusion 模型在一张 4GB 的家用显卡就能训练或者微调这类模型,因此每个文生图用户都有条件来训练新的模型。正所谓“没有人一直开源,但总有开源的人”,假设在模型训练者中,有1%~10%能够将其模型开源开源生态也能欣欣向荣。

开源模型才是终极答案

开源模型在服务B端和C端用户方面都具有显著的优势。对于B端用户而言,他们通常有天然的保密需求,内部资料不能外传。因此,开源模型能够为他们提供一个安全、可靠的私有化部署平台,让他们在保护内部资料的同时,充分利用大模型技术的优势。此外,B端用户还可以根据自己的业务需求对开源模型进行定制和优化,以满足特定的应用场景。

对于C端用户来说,他们的需求千人千面,需要微调大语言模型来实现个性化服务。例如,很多C端用户都有强烈的角色扮演和对话需求,而模型是否能够胜任取决于是否在海量的角色扮演对话数据集上进行微调。这类短对话数据集比起互联网上大量长文本来说,简直是沧海一粟,需要特地由人工撰写或者补全。

目前来看,只有ChatGPT4和ChatGLM4这两个闭源模型能够胜任这类任务。但如果采用开源模型加微调,那就不一样了,这使得开源模型在C端市场中具有更大的应用潜力。通过微调开源模型,C端用户可以获得更加精准、个性化的服务体验,极大满足用户各方面的需求。

闭源模型并不是稳赚不赔

尽管闭源模型在一定程度上能够保护开发者的利益,但是投资做大语言模型并不是稳赚不赔的。我们都知道芯片流片一次要几百万,但是做一个大语言模型,至少要乘个几百到几千倍。就算有了充足的资金,所需的算力也并不能马上部署到位。

可见训练大模型的成本已经与定制硬件相差无几,而硬件作为模型的上游产业,其技术进步和成本变化对大模型的影响不可忽视。随着未来更先进的硬件技术的出现,人人都有可能训练出当前规模,也就是几B到几十B的大语言模型,这使得当前闭源模型的投入可能面临打水漂的风险。

假如有两个老板,一个人投资大语言模型,而另一个人投资硬件。投资硬件的人得到了单位面积算力提升几十到几百倍的芯片,使得更多的人能训练大语言模型。那么显而易见,投资大语言模型的人就玩完了。

这就好比,卖铲子的人往往比挖矿的人赚钱,因为铲子作为工具,其需求相对稳定且广泛,而挖矿则存在较大的不确定性和风险。同样地,在人工智能领域,提供大模型训练算力的公司可能会比直接训练和应用大模型的公司更具经济效益。这些公司还可以通过提供算力、数据、算法等支持服务,从多个维度获取收益,降低单一业务的风险。

未来展望

综上,大语言模型也好,文生图模型也好,无论什么模型要想更好服务人类,解放生产力,就必须能够开源并且端侧部署。这是毋庸置疑的。

随着大语言模型数量增长,越来越多的人会加入它的上游,也就是硬件领域,带来硬件的突破进展。而随着硬件的进展,越来越多的开发者将倾向于选择开源模式以共享模型、促进技人工智能进步。

可能这就是新的指数爆炸,AI 发现新的物理规律,新的物理规律能够设计更强的硬件,更强的硬件能欧训练更强的AI。比起软件领域自己的指数爆炸,新的指数爆炸贯穿了理学、硬件和软件,将我们的世界连成一个闭环。


http://www.ppmy.cn/ops/20838.html

相关文章

开发语言漫谈-ABAP

大多数程序员可能都没有听说过这门语言。ABAP是SAP公司专门用于SAP软件环境的专门语言。这么多专门就能知道这门语言邻域有多么狭窄。这门语言过去据称是一条闷声挣大钱的好途径,非常不卷,简直躺赢的好事。这么说也没毛病,关键在SAP的业务能有…

抖音 小程序 获取手机号 报错 getPhoneNumber:fail auth deny

这是因为 当前小程序没有获取 手机号的 权限 此能力仅支持小程序通过试运营期后可用,默认获取权限,无需申请; https://developer.open-douyin.com/docs/resource/zh-CN/mini-app/develop/guide/open-capabilities/acquire-phone-number-acqu…

019Node.js的FS模块使用fs.stat检测文件还是目录

初始化项目 npm init或者 npm init --yes//fs.stat 检测是文件还是目录 const fsrequire(fs); //fs.stat(./html,function(err,data){fs.stat(./html,(err,data)>{if(err){console.log(err);return;}console.log(是文件${data.isFile()});console.log(是目录${data.isDire…

02 spring-boot+mybatis+elementui 的登录,文件上传,增删改查的入门级项目

前言 主要是来自于 朋友的需求 项目概况 就是一个 学生信息的增删改查 然后 具体到业务这边 使用 mybatis xml 来配置的增删改查 后端这边 springboot mybatis mysql fastjson hutool 的一个基础的增删改查的学习项目, 简单容易上手 前端这边 node14 vue element…

华为鸿蒙应用--封装通用标题栏:CommonTitleBar(鸿蒙工具)-ArkTs

0、效果图 自定义通用标题栏 支持左、中、右常规标题栏设置; 支持自定义视图; 支持搜索功能 一、CommTitleBar代码 import router from ohos.router; import { Constants } from ../../constants/Constants; import { StyleConstants } from ../../…

HTTP网络协议,接口请求的内容类型 content-type(2024-04-27)

1、简介 Content-Type(内容类型),一般是指网页中存在的 Content-Type,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,这就是经常看到一些 PHP 网页点击的结果却是下载…

一篇文章 学会Qt 样式表(qss)

QML 中风格和主题的设计可以通过配置文件选择现有几种中的一种,或者直接在控件定义时,指定其属性,如背景颜色或者字体大小。在QWidget框架中,则通过了一种叫做qss样式表的东西来进行描述,跟CSS逻辑上类似。 这个qss抽…

pytorch中创建maskrcnn模型

0.模型输入/输出参数参见 链接: pytorch的mask-rcnn的模型参数解释 1.提取特征图 通过骨干网络(如ResNet)提取输入图像的特征图 1.1 执行transform 对输入的images,targets执行transform,主要是标准化和resize的合并操作 1.1.1 images执行标准化操…