AI 重塑产品设计

server/2024/12/22 1:49:53/

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。

热门文章推荐

  • (1)《为什么很多人工作 3 年 却只有 1 年经验?》
  • (2)《一文掌握大模型提示词技巧:从战略到战术巧》
  • (3)《AI 时代,程序员的出路在何方?》
  • (4)《如何写出高质量的文章:从战略到战术》
  • (5)《我的技术学习方法论》
  • (6)《我的性能方法论》
  • (7)《AI 时代的学习方式: 和文档对话》

配套视频:《AI 重塑产品设计》直播录屏

一、背景

自从去年用过 GPT 3.5 之后深受震撼,发现 AI 已经不再是简单的“语音助手”,而是可以真正理解并回答你的问题。因此,就比较热衷于 AI 工具的使用, AI 知识的学习。
从去年开始,一直参与 AI 在业务应用上的探索,积累了一些经验,也有一些自己的想法。
image.png
本文,主要从《AI 重塑产品设计》的主题来讲讲 AI 时代老板的期待和实际落地的差距,讲解 AI 擅长什么不擅长什么,AI 产品设计的一些变与不变,AI 产品设计的要与不要,业务接入 AI 的常见路径以及对未来的展望等。
image.png

二、AI 重塑产品设计

2.1 老板眼中的 AI 和实际落地之间的 GAP

image.png

有些老板眼中的AI是100多人一个活,然后通过各种自动化各种 AI 工具。然后让就 3 个人就能干,这样的就可以降本增效了,比较简简单粗暴的。
image.png
哪怕你没有从事过 AI 的落地。你就看各种自媒体包,包括网上各种新闻。都是在吹超越了 GPT4 了,然后又怎么样了,又淘汰程序员了,反正各种就是有点夸张。总感觉可能马上要淘汰了。
那你比如说你用这些模型去做,你结合你业务的时候,你会发现,这也不行,那也不行。理想很丰满,现实很骨感。你会发现这也不行,那也不行,怎么办?然后有的时候你可能苦思冥想,觉得这个可以做。做完之后发现其实没多少人用。有些人可能甚至明确的去吐槽你说你帮助不大。没啥用,那你就还是很灰心的。
image.png
**现在的 AI 它不能够完成一个多条链路的生产。**举例来说,比如说,我准备了一个文档,让 AI 帮我做成我现在。相对来说比较有结构化,比较漂亮一点的 PPT。不太行的。比如说我想让我比较喜欢写文章,那把我网上的历史的给他几篇文章。给他说我要写什么东西,比如说我要写ai重塑产品设计。然后给它一个主题,然后当它结合我之前的风格,然后自动的去写自动的去排版自动的去生成图片,自动去对文章进行润色,自动起标题自动发布,其实也是不现实的,就现在来讲的话还是不太现实的。
我们现在实际的AI应用中是什么情况?**通常来说只能完成一个环节的或几个小节点?**比如说。比如说我们你现在如果是程序员,产品给你一个需求,它自动帮你把技术方案给你写完,然后自动帮帮你把代码给你写完,自动帮你测试好,自动帮你发布。比如说现在写代码,可以用AI 智能代码补全插件可以自动帮你补全一个函数,补全一小段代码,然后可以帮你写一个工具类,比如说你去提交代码的时候,它可以帮你写 git 的message等。
在 做 AI 落地的过程中你需要找一个或几个 AI 能够胜任的这些环节把它接入进去。就现在还是没有到,说由点到线到面,然后到体的过程,现在还只是点。它通常还不串不起来。大家现在如果想做 AI 应用的话,可以按照这个思路来搞,每个人的业务不一样,看你业务的话有哪些点可以用 AI ,不一定非得整个全部都用 AI。

2.2 AI 擅长什么,不擅长什么?

你如果要搞AI的应用的话,你要知道AI它擅长什么,不擅长什么。你啥也不懂,你就没法搞。那 AI 上来什么,现在的现在这个阶段。就是说 AI 现在就是说日新月异搞不好,过几天又出现什么新技术,就有一个什么质变,这都不好说。
image.png

2.2.1 能力:能

那现在来看的话,就比如说文本图片,视频的这种生成有一些现成的模型。比如说信息的检索,语言的理解,就比如说。比如说以前可以代替搜索引擎了,以前百度里可以给你返回一些文章,然后你去理解现在的话,它可以你提出一个问题,它自动去搜索知识,然后回答你的问题。
语言理解,你可以和他做一些对话。知识的整合,比如说你可以上传一个PDF或论文,然后让他给你总结,给你问问,针对这个论文或者文章问一些问题,他帮你回答这些。比如说模式识别,你有一些需要从一些文本中找出一些关键信息或者是之类的,它也可以做到。

2.2.2 能力:不能

现在 AI 还不太具备复杂的人类感情。虽然 AI 也具备一些常识推理,但是就是比较弱,就是说如果比较复杂的推理的话,还是容易出错。实时决策,AI 相对来说还是需要很长的一个运算时间,对于这种需要快速反应的话,还是不够的,不是在每个领域可能不是每个领域都能够做到很实时的。
那比如说长时记忆,就比如说你很久之前和他聊过一个天,你突然提到他有可能不记得他可能是基于这种新新的聊天和你进行了交流,但是的话其实现在已经正在被解决了,比如像 GPT 的话,现在就可以有那种尝尝试记忆功能了,你可以让他去记录一个事情。后面再跟他聊这个事情,他还能记住。然后一些视觉任务就比如说,你给他一个图片或者一个视频的话,他能够提取的信息还是有限的。就比如说你现在和比如说和你现在单身和一个相亲对象去相亲,其实你如果能够把整个过程,比如假设整个过程都能录下来,他的微表情,他的语气什么都能搞出来?然后你理论上你给 AI,然后他去分析一下对方的表情,对方的语气,对方的这个内容能够给出非常专业的建议,但是现在其实还是非常困难的。

2.2.3 任务:能

接下来讲一些任务,常见的任务,比如说一些问答常见的一些客服问答,然后文本的翻译,然后内容的创作,你可以先让AI 来做。起个文章标题、写个文章大纲、创建一个思维导图、写一个文章的草稿都可以的,比如说你上传一篇论文,自动给你总结也不错。
image.png
尤其作为程序员的话,我们工作中已经开始用公司内部已经有那种。代码智能代码补全插件了,帮我们去补全一些代码可以帮我们写单元测试等。

2.2.4 任务:不能

需要深度理解和分析的一些复杂系统,还不太行。需要发明创造的不太行,它可以根据已有的一些知识帮你去分析,需要开创性的一些思路的话,现在还不太行。一些实时的决策有些因为毕竟 AI 需要做运算,有些模型还是有点慢的,GPU 比较少并发比较高,再加上网络延时之类的,做实时决策,还是有一些问题的。然后还有一些非常规问题的解决,就一些非标准的,或者是极端情况下的一些场景的话,他的回答可能会不好。那还有一些需要精确控制什么物理世界的设备。
我觉得现在的话已经逐渐在改善,然后我觉得随着 AI 这个智能化程度的不断发展,那这些他不能做的事情也越来越少。
但,目前情况下来看,现在大概是上述情况。

2.3 AI 产品设计中的变与不变

2.3.1 AI 产品设的变

(1)设计思维需要与时俱进

image.png
我觉得最需要转变的是设计的思维。
上图是工业革命的第一辆汽车,它其实就相当于是一个蒸汽机或者是发动机就放在三轮自行车上。和现在的现汽车,不管从形态、从舒适度、速度还是驾驶体验,差距是太大了。
在技术革命的初期,其实就是很多人还是停留在上一个时代。包括现在各种什么 AI 的笔记,什么 AI 思维导图,什么AI生成PPT等等。现在很多的 AI 其实都是这种情况。现在的 AI 笔记软件,也可能还是相当于图中的三轮车,AI 帮你生产一点内容可能相当于是它发动机。我觉得未来肯定,不是这样子的产品的形态。还有可能会发生非常大的变化。

比如两三年前我就认为购物软件还不够智能。如果足够智能的话,它了解我,比如说了解我,买电子产品我喜欢上京东买自营的,买一些便宜的生活用品可能倾向于去淘宝或拼多多。如果它了解我的喜好,就能够自动的帮我去选商品,根据我的经济情况、个人的喜好十个候选商品,然后我自己决定买哪个,然后,付钱即可。这样就可以节省大量的时间。之前有很多人觉得这是异想天开是不可能的。现在其实已经有类似的产品开始出现了。它还不太成熟。就比如说你,你你可以输入一个想买的东西,然后他会从各种平台上帮你去选一下,然后用 AI 去甄选推荐给你,但是还不太成熟。我觉得未来的话可能会成为常态。就我觉得在这个时期,看谁能够摆脱之前的那种传统互联网的这种产品形态的这种复述,能够大胆的去想去尝试,去破除旧的传统的产品形态对你的影响。

(2)各角色都需要了解 AI 常识

还有一个变化,就是说各种角色都需要了解AI知识了。
以前的话,比如说算法同学其实像模型这些或者算法,其实主要还是算法同学来搞。他需要知道说什么算法能做语音识别什么算法,能识别图片,什么什么模型,能干什么事情。
现在其实不太一样了,不管你是产品经理还是运营、开发同学、测试还是算法的同学,都需要了解一些 AI 的知识。

比如提示词的调优。比如你是一个产品经理,你想去实验一下,你看一下这个大语言模型行不行,那就是他需要去写一个提示词,然后问一下。如果提示词搞发现效果不好,就需要加一些例子,加一些要求,给出一些明确的步骤等不断的调优。

image.png

在产品设计的过程中,如果你直接使用这个模型,效果不好,可以尝试使用 RAG 技术。比如可以先把相关的知识先搜到,然后给模型做参考,然后再让模型去做处理,那效果可能会更好。

还有AI 工作流设计模式,前段吴恩达分享就做个相关分享。比如你要设计一个 Agent 的类型的产品。或者你的 AI应用的时候,你可以想去参考这种模式,如果哪些模式你都不知道,怎么去设计?你不管是什么角色。你需要就都已经开始需要了解AI的知识了,只是了解要求的深度可能不同。

(3)产品落地过程中,各角色合作更加紧密

image.png
在 AI 产品设计过程中,各个角色的合作更加紧密了。
产品经理需要了解了 AI 知识,可以写提示词,拖拖拽拽做预研。
AI 产品应用过程中,如果模型需要微调的话,开发同学也可能需要辅助构造一些训练数据。
算法同学需要更加深入了解业务。以前岗位界限比较明显,算法同学专注算法相关任务即可,把这个模型训练好就行了,现在其实不行了。现在对于算法同学来讲的话,他必须更加深入了解业务。就比如说一个任务需要接入AI,那它可能需要做任务拆解,比如说好几个步骤,那其中有些步骤用 AI有些步骤就不适合用 AI,那么你算法同学就必须要给出一个比较权威的结论。比如说我们尝试用一些简单的提示词就生成几百行代码,发现生成的速度特别慢,然后效果也不好,前面生成错了,后面错的越来越离谱,那后面那个算法同学了解我们业务后,建议部分工程化方式去辅助填充,有一些用 AI 自动补全,补全的效果和补全的速度有很大提升。

(4) 创新思维更重要,创新想法更容易落地

AI 时代的话,我觉得创新思维更重要,创新的想法更容易落地了。
image.png

比如基于 Dify 平台,可以快速的基于大模型简单拖拖拽拽,写写提示词,少量配置和开发,就可以搭建一些有意思的工具。比如这个工具,打开之后可以对着一个物品去扫,然后让他去写一个金句,写一些有意思的内容,比如夸怪,然后写一个小文书文案、外卖好评。以前外卖好评自己还要憋,还要写多少字以上,才能返现,现在直接对着拍就可以了,非常便捷。

以前的话其实是很难想象的,做这种工具的话,可能需要花很长的时间。现在可能就拖拖拽简单的一些开发或者是简单的组合就可以。

2.3.2 AI 产品设的不变

(1)经典的设计原则不变

我觉得有些东西是不变的,比如说一些经典的设计原则是不变的。
image.png

比如置于用户控制之下、减少用户的记忆负担、保持界面的一致性。然后还有一些简洁性,一致性可用性,这些东西都是不变的,你不可能设计 AI 产品的时候,这些原则就不符合了。

image.png
比如说减少用户的记忆负担。万知可以上传文档,然后去设置一下那个字数、场景,然后就可以生成大纲,再生成PPT。假设它不提供你设置字数、页数,还有受众场景。让你在提示词里去写这些东西,那么用户他很有可能就漏,他忘了说页是什么,忘了说受众是什么,效果肯定是不好的。
有了这个功能,用户就不需要去记这些东西,不需要他在提示词里写页数写的字数、写受众、写场景是什么。
image.png
比如说有同学用过 coze,已经支持通过对话的方式自动创建 Bots。也可以自动的帮你优化提示词,自动选择插件,自动帮你去创建对话框什么的,就减少了用户的记忆负担。

(2)经典的设计模式不变:插件化

一些经典的设计模式不变,比如插件化。
image.png

比如说传统的谷歌浏览器,通过各种插件满足各种不同的需求,让上谷歌浏览器非常受欢迎,非常具有生命力。
image.png

那现在比如有些人用过效率的桌面工具 Utools 或者 Alfred,它也是通过各种插件满足你的各种需求,也很受欢迎。
image.png

那现在的 AI 平台,比如说 Coze,也是提供了各种插件,那么你可以基于大模型,然后调用各种你需要的插件做组合,然后能够满足你非常个性化或者非常复杂的这种需求,焕发出强的生命力。

(3)经典的设计模式不变:一体化

还有一个原则就是一体化,这我觉得是我观察到的比较重要的一个原则,就是现在的AI产品其实已经比较强调一体化。AI 一体化产品发展的一个非常重要的趋势

image.png
Warp 就是一个 AI 命令行 工具,开发同学经常需要写一些指令,在这个命令行工具里去执行出错时,它这个命令行里面它会自动的有一个按钮,点一下它就自动的把这个报错传给 AI,然后 AI 给你一个建议,你下一步要执行什么指令来修复它,你直接点击执行就可以了,你不需要把这个问把这个报错 copy 出来,然后再打开 ChatGPT,然后问问半天之后拿到一个指令再回来执行。
image.png
copilot for microsoft365 就是微软出了对针对 office 出的 AI,你可以在 word 、PPT、excel 选中一些内容,然后告诉它该怎么改,它或者是该做什么计算,那么它自动帮你做调整。

(4)经典的设计模式不变:模块化

还有一个趋势就是模块化。
image.png
比如说你去以前有一些手机或者一些电子产品,它是支持模块化的它电池或者是摄像头可以换。比如说现在单反,也支持换镜头。

image.png
比如你买服务器,它的 CPU、内存、硬盘、宽带都是可以随意挑替换的挑选。
image.png

那现在比如说 Coze 这个 AI 平台,它的模型也是可以替换的,还有一些配置都是可以让你选。设计 AI 产品的时候也可以考虑模块化,用户可以根据他的这种经济能力或者喜好,去选择自己的模块。

2.4 AI 产品设计中的要与不要

2.4.1 AI 产品设计中的要

(1)要用发展的眼光看问题

要用发展的眼光看问题,就比如说你以前都是步行、马车,那后来有了汽车,然后汽车觉得就挺好了,那后来还有火车。火车就觉得挺好,那后来有高铁。然后还有飞机,还有宇宙飞船什么之类的,那么技术是不断的在发展。

image.png

很早的计算机非常笨重,好几间屋子那么大,现在台式机,有了笔记本,设备越来越薄了,越来越快。
以前有电话、大哥大之类的,现在后来有功能机,然后现在有智能机,运算的速度内存,外观、体验都在不断的提升。
AI 其实也是这样的,以前比如说各种语音助手,现在其实有的 GPT 3.5那后来有现在又有了 GPT4。以前那个GPT 3.5 很多人说他永远超不过人,为什么是因为它不能支持联网,它的知识永远都停留在 23年几月几号,现在 GPT4 其实已经可以联网了。包括现在的 天工 AI,已经可以先搜索一堆最新的参考资料,然后再回答你。现在有些人说 AI 有上下文长度限制,超过限制它就回答不了,上下文较长它回答就特别慢。未来随着模型能力不断增强,那么它能够处理上下文,可能翻十倍几百倍,几千倍,甚至无限长。比如说你现在可能只能发一篇文章给他,未来你可能把一本很厚的垫子书直接扔给它。现在 AI 只能阅读文字版的电子书,未来随着技术发展,AI 可能直接阅读扫描版,然后它自动的做 OCR,然后自动的去帮你转成文字版,然后提问。

技术在不断发展,你需要做提前做一些构想,然后等机会来的时候你再抓第一批抢上去,然后去做,那你才能够有机会。我觉得挺重要的,你要面向未来设计,就现在大家有什么样的产品你抄来抄去的其实也没什么用。你能够有一些比较好的想法,那么接下来的 AI 达到那个点的话,你第一个做出来,你很有可能就成功了。

image.png

现在生成 PPT 平台大同小异的,你可以上传一个文稿或者是写一句话,然后让用户做一些选择,它的风格什么页数什么,然后他给你生成一个大纲。你确认好或修改好之后生成PPT。这种功能还是有些鸡肋,无法模仿你的风格,需要修改的太多。
比如,我们可以设想,下一步 AI 生成 PPT 的平台,我们应该上传历史的 PPT,让它学习到我的 PPT 风格,然后生成对应大纲,我再去核实、修改。让它帮我生成 PPT,如果不符合要求,可以圈选某个部分内容进行对话,让 AI 帮我们快速调整。这样本来十个小时才能做好的 PPT,可能只需要几分钟就可以做的差不多,然后通过简单对话快速调整成想要的样子。

(2)要给 AI的信息足够完整和准确

做 AI 应用的时候。要考虑信息的准确性和完整性。

image.png
假设用户他说一句话,需要匹配到一个知识,根据知识会生成一段文本或者一段什么程序。比如有个知识,用于判断是否为支付宝,type 的值为中文的支付宝,还是拼音支付宝?是 ALIPAY 还是小写的 alipay?显然,给的信息都不完整甚至是错误的,AI 肯定做不好。给 AI 的信息尽量准确性和完整性、避免歧义。

(3)要思考问题的本质

设计 AI 产品一定要思考问题的本质。
比如说以前谷歌,百度,谷歌,StackOverflow 搜一些问题,他给你一些一堆的参考文章,然后你要去试,然后特别浪费时间,比如说有 Bing 和天工AI 你只要需要输入问题,然后他去帮你搜索相关内容,然后他去回答你的问题。

image.png
很早之前也想过,我觉得百度、谷歌它本来就这样。你是为了解决问题,你把问题交给它,它去找一堆资料,然后回答你,而不是说给你一堆资料,让你去浪费时间再去找,我觉得是在浪费生命。
很多人觉得 Bing 提供可以基于问题自行搜索并回答已经很棒,其实我觉得还不够,下一步应该往一体化发展。找到问题答案还是为了完成某项任务,假设这个问题我们需要咨询 50次 AI ,反复从不同平台跳来跳去非常影响效率,未来或许应该在一个平台内完成完整的任务。

比如说你在写代码,报错了,我们把报错信息 Copy 出来问 AI ,问完之后再回来改,浪费很多时间。未来比如说我去写代码的时候报错了,AI 应该自动识别报错,直接给一个建议,我只需要直接点一下执行就可以了。比如说你是一个产品经理去设计一个产品文稿,你不需要跳出工作环境寻求 AI 的建议,在你也在那个设计的软件里面直接问好,不需要跳过来,它甚至可以直接把你调好。

比如说你是中国人,你去看油管视频,有些视频是日文、英文等,如果你对某个评论比较感兴趣,那你要 copy 出来,在谷歌翻译上去翻译过来,或者浏览器右键去翻译成中文。AI 时代你应该能够识别你是中国人,自动提供中文字幕,甚至音色相同的中文配音,下面的外文评论自动翻译成中文,而不需要你自己去 copy 出去或者右键翻译成中文。你在聊天软件中和外国人对话,输入法输入中文应该可以自动翻译成地道的目标语言。

(4)真正 AI First

现在是 AI 时代,设计产品时,要秉承着 AI First 的理念。
比如说我们现在创建那个 AI Bots 或 Agent 的时候,比如 GPTs 和 Coze,已经提供通过对话的方式帮你创建这 Bots,包括提示词、头像等信息。如果没有 AI First 的理念,肯定还需要你去填写提示词,填写Bot 名称,上传头像,设置开场白等。

image.png
比如你在 Coze 中写了一个提示词,可能不够专业、不够结构化,你一下优化,它可以自动帮你优化提示词,这才是AI时代的一个产品。
真正 AI First
image.png
比如说要画出一个动漫的女性、眼前有个 MAC 电脑,手上有个笔,然后右侧有个笔记本和花盆等,用户通常不太愿意描述这么详细,那怎么办?

image.png

现在已经有了大模型,大模型可以根据用户的这种诉求,然后给他做一些细节丰富,比如说我让 AI 绘制能够体现出使用 AI 之前要先进行思考的一个图片。它自己根据我预先设置一些提示词,对用户描述进行丰富,自动补充一些细节,然后画出来的图形就特别漂亮。

对所以说我们现在设计思想的设计产品AI产品的时候,你的产品本身要体现出这种智能化。也有这种AI first的理念,我觉得非常重要。

(5)警惕:用进废退

大家在做 AI 产品设计,或者使用AI产品的时,要警惕用进废退。
大家都知道,现在大家大都已经打字来工作了,让你去写字,可能写的很慢,有些字已经忘记怎么写了。AI 时代,比如你写代码,你自己先不脑子,先不思考,AI 代替你思考,你去设计一个技术方案,还要让AI先帮你去写,你的思考能力慢慢就退化了。当你思考能力退化的话,你的可替代性就会更强。
image.png

你去在问 AI 之前一定要先思考,就比如现在很多同学去写代码报错了,自己先直接去问问 AI ,然后将答案 Copy过来,问题解决了自己很开心,我觉得这是肯定是不行的。

2.4.2 AI 产品设计中的不要

(1)不要期待 AI 一次解决所有问题

现在 AI 其实发展还不太行,不要去想着一句话就是生成图片,一句话生成SQL ,一句话生成视频,一句话生成PPT,一句话生成思维导图。现在好多这种产品,其实我都不怎么愿意用,我觉得是非常鸡肋的。

image.png

比如说 ChatGPT Plus,你一句话让他生成图片,它会自动帮丰富一些细节,生成出来效果会好一些。但,经常还是有可能不符合你的需求,那么,你可以把不符合需求这部分圈出来,告诉他你要怎么改,它自动按照你的要求进行修改。

比如 AI 去生成 PPT,那它必须能够识别出我的风格,按照我的风格创作,还要能够支持我对这一页 PPT 或者说我必须能够圈中 PPT 的一小部分,然后告诉它给我生成什么样的效果,如果不支持的话,我肯定是不用的,非常鸡肋。

所以我们现在做 AI 应用的时候,当一句话或者一次不能够很好的效果,可以做一些任务的拆解。其中有一个步骤需要人的参与有些步骤 AI 来做,效果会更好。

2.5 业务接入 AI 的常见路径

下面是根据我个人的理解,给出的一个 应用接入 AI 的路径。
image.png
可以简单些提示词直接调用模型进行尝试。如果效果不好,可以尝试提示词调优,如增加示例、加要求、自带知识库、长提示词将输入放在开头和结尾等。还可以使用 RAG 技术,比如让模型处理之前,先查询候选内容,然后让模型参考整理出最终答案。还可以尝试将部分任务使用 AI 实现,有部分任务采用工程化方式解决,比如复杂的脚本,有一部分是比较固定,可以用工程化生成骨架,其余部分让 AI 进行智能补全。

如果尝试各种方法还是无法实现,大概率是模型能力不行。此时,可以选择更高级或者更专业的模型,通常可以取得更好的效果。还可以创建自动拆分和执行任务的 Agent 来实现复杂任务。

如果效果还不好,说明任务的难度已经超越当前高级模型的极限。此时,可以考虑将任务进一步拆解,让不同的模型完成不同阶段的任务,可以让多个 Agent 协同完成复杂任务。

如果进行了模型拆解,使用了高级的模型效果还是不行,此时需要将 AI 无法胜任的任务拆分给人来承担,通过人机协同的方式完成复杂任务。

2.6 一款常见 AI 产品浅析

下面以零一万物的万知创建演示文档为例,浅析 AI 产品的设计。

image.png
万知生成演示文档,用户选择幻灯片模板,上传参考的文档,设置页数、字数、受众、演示场景和图片来源、语言等。
image.png
执行完毕后会生成幻灯片大纲,用户可以对幻灯片大纲进行检查和修改。确认后,可以生成幻灯片。
image.png

这里可能涉及到很多技术。比如任务拆解,即文档需要人提供,选项需要用户来选择,生成的大纲需要人来校对,生成 PPT 则是 AI 来完成。
image.png
该功能很可能会涉及提示词的调优,根据用户的输入和选择拼接成新的系统提示词然后再执行模型调用。
人工对 PPT 大纲的校对其实是为了保证传给大模型的信息的完整性和准确性。当然,底层也可能涉及到 RAG 技术,比如根据用户提供的信息,网上搜索相关知识,给出更完美的结果。在研发此类产品时,还可能涉及对结果的工程化二次处理。

image.png
当然,正如前面提到的,目前的很多类似产品还是很难真正形成生产力。随着 AI 能力的不断提升,对于 AI 生成 PPT 一定根据用户的历史 PPT 学习相关风格,能够通过对话对某一页 PPT 或圈选 PPT 页面的某个区域进行对话轻松修改,才能真正形成生产力。

2.7 未来畅想

未来 AI 产品应该会更强调一体化,不需要从不同的平台横跳。比如我写代码报错,不应该粘贴错误到 GPT里面提问,然后再回来进行修改,应该在 IDE 里面可以闭环完成整个任务。正如,前面介绍的现在的 AI 应用更多得是从整个链路中寻找一些 AI 有能力胜任且投入产出比较高的点来引入,这导致不同的点之间使用的模型可能不同,不同的点之间相对孤立,未来应该会由点到线,由线到面,由面到体,不同的 AI 之间可以交互合作,AI 能够贯穿整个任务生命周期。
image.png

未来,真正的多模态一定会到来。比如你想把相亲的场景发送给大模型,你录像可以将对方的每句话、每个表情、每个语气变化都传给模型,但是现在的模型更多得是对文本的处理,对图片的描述,对视频的简单描述,很难像人类一样,去读懂每句话的同时,结合表情和语气给出更专业的建议。

AI 能够完成的任务占比越来越多。 没有 AI 之前,所有活都需要人来干,管理者可以将活分配跟其他下层员工。有了 AI ,一些活可以分配给 AI。随着 AI 能力的不断增强,更加复杂的任务可以交给 AI ,人类和 AI 开始合作完成任务。未来应该是 AI 主导任务,人类做确认。

未来,一定会突破“自然语言”的局限性,人类和 AI 可以通过类似“意念”的方式高效交流。 自然语言存在输入的效率问题,也存在表达的局限性,你很难通过自然语言全面、客观、高效地的描述复杂的事件。虽然现在已经有语音输入,但是存在使用场景限制,虽然现在也有脑机接口,但是仍然存在很多局限性。

原创内容,未经允许,不许转载


http://www.ppmy.cn/server/40556.html

相关文章

Clickhouse 字符串函数 - 1

empty​ 对于空字符串返回1,对于非空字符串返回0。 结果类型是UInt8。 如果字符串包含至少一个字节,则该字符串被视为非空字符串,即使这是一个空格或空字符。 该函数也适用于数组。 notEmpty​ 对于空字符串返回0,对于非空字符…

pgAdmin 4 使用

瀚高数据库 目录 环境 文档用途 详细信息 环境 系统平台:Linux x86-64 Red Hat Enterprise Linux 7,Microsoft Windows (64-bit) 10 版本:14 文档用途 本文介绍pgAdmin4使用技巧和工具所具有的比较好的功能。 详细信息 pgAdmin4是用于设计、维护和管理…

Elasticsearch安装步骤

引言 Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索和分析引擎。它设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。Elasticsearch为所有类型的数据提供近乎实时的搜索和分析。无论…

一套MySQL读写分离分库分表的架构,被秀到了!

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、My…

数据结构·一篇搞定栈!

好久不见,超级想念 废话不多说,直接看 引言 在数据结构的大家族中,栈(Stack)是一种非常重要的线性数据结构,它的特点是后进先出(LIFO,Last In First Out)。栈在程序设…

【中级软件设计师】上午题15-计算机网络

上午题15-计算机网络 1 网络设备2 协议簇3 TCP和UDP4 SMTP和POP35 ARP和RARP6 DHCP(Dynamic Host Configuration Protocol)7 URL8 浏览器9 IP地址和子网划分10 IPv611 Windows命令12 路由器 1 网络设备 物理层设备:中继器、集线器&#xff0…

opencv图片的旋转-------c++

图片的旋转 /// <summary> /// 图片的旋转 /// </summary> /// <param name"img"></param> /// <param name"angle">旋转角度:正数&#xff0c;则表示逆时针旋转;负数&#xff0c;则表示顺时针旋转</param> /// <…

性能优化 | el-table中内嵌大量el-input控件导致渲染卡顿的问题

场景 项目中有一个应用场景&#xff0c;用户需要在表单中大量使用选择框以及输入框填写数据&#xff08;每一行大概有三十几个输入框&#xff09;&#xff0c;当选择框与输入框达到一定数量的时候&#xff0c;页面会出现输入不连续、卡顿的现象&#xff0c;如下图&#xff1a;…