如果说2024年是生成型人工智能的年份,那么2025年就应该是设定合理期望的一年。
根据科技行业分析师的预测,2024年本应是生成式AI(Generative AI,简称GenAI)的里程碑之年。随着各种复杂应用场景的不断涌现,新技术的出现降低了准入门槛,使得通用人工智能似乎触手可及。
但事实果真如此吗?
在某种程度上,确实如此。如果说2024年是生成式AI的元年,那么2025年就应该是设定合理期望的一年。
展望未来,GenAI仍将是全球开发者和企业关注的焦点,但我们对它的讨论正在变得越来越接地气。本文将回顾我们已经走过的历程,展望未来的方向,并分享对AI发展的一些见解。
GenAI擅长对话,但还不适合部署
2024年比较流行的两个术语:
“Copilot”,这是一个用于完成单一任务的AI工具的花哨说法(比如"优化我的屎山代码");
“Agent”,即可以收集信息并利用这些信息执行任务的多步骤工作流(比如"写一篇关于优化我的屎山代码的博客并发布到CSDN")。
2024年,我们确实见证了许多成功的AI Copilot案例(比如Github Copilot、Snowflake Copilot、微软的回形针等),但AI Agent还是停留在准确率优化阶段。
虽然AI Agent在各大公司的客服团队中掀起了一阵风波,但目前看来这可能就是它的极限了。 尽管这些Agent是向前迈出的重要一步,但这些Agent对工作流的处理准确性仍然很差。
就算是最先进的AI,其准确率也只有75%-90%,大多数AI的水平相当于高中生。如果你有三个准确率为75-90%的步骤,最终的准确率大约只有50%。
【注】真实线上的流程追求99.99%的准确率,即使Agent的准确率达到98%,也很难直接替代人客服,因为剩下2%的错误率会导致客户流失。所以目前Agent在离线数据处理、生成上应用较多,但是还是由于不100%正确,所以对于Agent生成出来的数据还需要一个后验的流程。
对于企业来说,按照目前的表现水平,大多数Agent一旦投入生产反而会造成损害。我们需要先解决这个问题。
虽然讨论这些技术很重要,但除了演示之外,还没有人取得过实质性的成功。不管各大IT公司的人多么热衷于谈论Agent,这些讨论都无法转化为实际性能。
GenAI在2025年不会成为大多数企业的收入增长点
和其他数据产品一样,GenAI的价值主要体现在两个方面:降低成本或创造收入。
从收入角度来看,你可以使用GenAI驱动的聊天机器人或推荐系统。这些工具确实能产生大量的销售线索,但这些线索的质量并不一定有保证。因此,如果AI不能带来收入增长,那它就需要在降低成本方面发力——而在这一点上,AI确实已经做到了。
在我看来,AI应用要想实现成本节约,需要满足以下三个条件之一:
- 能够消除或减少重复性工作
- 能够在人才市场紧张的情况下填补空缺岗位
- 能够解决紧急的招聘需求
Dave Bank就很好地利用了GenAI的成本节约潜力。他们开发了一个使用RAG技术的内部聊天机器人,用于回答团队成员关于公司数据的问题。这使得技术能力较弱的团队成员能够更快地获得准确的数据答案,节省下来的宝贵时间可以用于帮助利益相关者创造收入。
AI的未来在于小数据,而非大模型
开源与托管服务在AI领域的争论确实颇具复杂性。对于企业而言,这一选择不仅仅是关于控制权或互操作性,更关乎运营成本的有效管理。
【注】企业使用AI模型,基本上是两种方式:
- 使用现成的模型,比如Qwen等,这些模型是开源的,但是需要企业自己进行训练和优化。
- 使用第三方服务,比如Azure OpenAI等,这些模型是专有的,还可以托管给第三方进行定制化微调。
大型B2C企业往往青睐于采用现成的模型,而B2B企业则更倾向于选择成本效益更高的小型专有模型。对于这些企业的数据负责人来说,选择小型模型不仅仅是为了节省成本,其在性能上的优势也不容忽视。以Google为代表的大模型旨在应对多样化的查询需求,因此需要在广泛的数据集上进行训练。然而,这也导致了模型在处理特定问题时可能出现混淆,从而产生错误。
值得一提的是,ChatGPT和其他托管解决方案在网络上确实面临了一些质疑,尤其是关于训练数据的合法使用权问题。这在监管严格的行业中,可能会对专有模型的长期采用产生影响,尽管具体程度尚不明确。
然而,专有模型并未因此停滞不前。它们正在通过降价策略来刺激市场需求。例如,ChatGPT的模型价格已降低约50%,并预计在未来六个月内将进一步降低50%。这对于希望在AI领域保持竞争力的B2C公司来说,无疑是一个积极信号。
非结构化数据栈的崛起
在生产环境中利用非结构化数据并不是什么新鲜事——但在AI时代,非结构化数据扮演着全新的角色。
根据IDC的一份报告显示,目前企业中仅有约一半的非结构化数据得到了分析利用。
到2025年,这一切都将发生改变。
企业级AI的成功主要取决于用于训练、微调和增强它的各类非结构化数据。随着越来越多的组织寻求将AI应用于企业场景,对非结构化数据和新兴的"非结构化数据栈"的热情也将持续增长。
一些团队甚至在探索如何使用额外的LLM来结构化非结构化数据,以增加其在额外训练和分析场景中的实用价值。
对于数据负责人来说,识别组织内部存在的非结构化一手数据,以及如何为利益相关者激活这些数据,是一个展示数据平台商业价值的绝佳机会(同时也有望为重点项目争取到额外预算)。
2025年的重点将是流程、价值和可扩展性。