AI大模型加速RPAxAI时代到来,谁会是RPA领域的杀手级应用?

news/2024/9/17 15:55:46/

GPT等AI大模型震撼来袭,基于RPA的超级自动化仍是最佳落地载体

对话弘玑CPO贾岿,深入了解国产RPA厂商对AI大模型的探索与实践

文/王吉伟

关于RPA已死的说法,在中国RPA元年(2019年)投资机构疯狂抢项目之时就已经有了。

说它会死的,一般会认为RPA是一种过时的技术,一种打补丁的技术,一种不稳定的技术。在很多人眼里,依赖UI抓取实现的自动化,最终都会被基于API接口的集成自动化所替代。

现在已经过去5年,RPA不但没有死,还进化出了智能自动化和超级自动化。

没错,RPA没死是因为当代RPA都是基于AI构建的,几乎所有主流厂商都在推出RPA产品之前先一步进行AI的研发。

现在采用超自动化架构的RPA集成了NLP、OCR、低代码、流程挖掘、chatbot等几乎所有先进AI技术和工具,并且还在通过UI和API集成更多的技术以为客户提供更全面的端到端自动化解决方案。

当然,说RPA已死也是有道理的,因为没有融合AI技术的RPA早已经死了。

可谓生也AI,死也AI。

每隔一段时间,当RPA技术发展遇到瓶颈或者新技术会对其造成冲击时,就会有看衰RPA的声音出现,并再次提及RPA已死。

现在,以GPT为代表的AI大模型(LLM,Large Language Model)来了,ChatGPT及Midjourney等基于LLM的杀手级应用对各行各业都造成了巨大的冲击,由不得大家不去考虑LLM对各种软件系统的影响。

于是,人们又开始探讨RPA的未来归宿。

起初就连RPA厂商也会为之恐慌,毕竟LLM都是巨头大厂才能玩得起的,有了AI大模型,主打UI自动化的RPA是否还有存在的必要?RPA技术的发展是不是就到此为止了?AI大模型会不会取代RPA?(PS:关于LLM会不会取代RPA,可以参考王吉伟频道之前的文章,本文不再展开讨论。)

扩展阅读:基于AI构建的当代RPA,在生成式AI影响下的生命周期还有多长?

但通过一定的了解、探索与实践之后,厂商们很快就发现LLM将为RPA带来的巨大变革与全新机会。于是,国内外RPA厂商都在步调一致地积极引入LLM。

目前国外引入GPT的厂商已经有十数家,国内也有多家厂商引入了GPT、文心一言等大模型,未来国内各个发布大模型的厂商都将是RPA的模型供应商。

那么,目前都有哪些国内RPA厂商引入了LLM?GPT等AI大模型又会为RPA带来什么样的变革?大模型能够为RPA厂商带来哪些机会?

本文,王吉伟频道就跟大家聊聊这些。

国内RPA厂商的GPT探索

RPA在GPT上探索与尝试,先是由国外RPA厂商开启的。

ChatGPT上线于去年11月30日,到了今年1月,智能自动化厂商NICE就率先宣布了与ChatGPT的技术集成。此后Automation Anywhere、UiPath、三星SDS、Appian、SAP、Pega 、Salesforce、微软(Power Automate)等多家厂商都官宣或者发布了GPT插件,并在博客或视频平台上线了相关教程与视频。

保守估计,国外市场引入GPT的RPA厂商已经不下20家。

在国外厂商的引领之下,国内也有很多厂商陆续引入与集成AI大模型。

近期国内也有不少厂商,发布了RPA与GPT结合的demo视频。比如在这个周一,通过内部独家接触,王吉伟频道就看到了被Gartner评测国内RPA产品力第一的弘玑Cyclone所发布的9个RPA与GPT结合的demo。

其中三个demo,王吉伟频道印象非常深刻。

第一个是GPT与RPA结合的大众点评商家智能助手,原来需要多步操作的复杂工作流程,现在只需一个自然语言口令启动便可快速执行。

第二个是GPT结合RPA实现周报自动书写和发送,GPT通过分析RPA自动获取的项目日报和项目管理系统中的信息,通过与用户多轮对话生成具有实时数据支持的精确项目周报。

第三个是GPT结合RPA结合事实资料自动生成Word和PPT,RPA提供真实信息数据来源有效避免ChatGPT凭空编造内容,几秒完成重复繁琐的资料收集、整理、生成定制化文案与PPT的工作。

弘玑这次发布的demo,侧重GPT与RPA各种能力的有机融合,包括环境感知、数据获取、 数据处理、数据搬运、内容生成、智能决策、信息系统与应用的自动化操作等。

看完这些demo,可以深刻感受到基于LLM的AIGC与RPA深度结合所带来巨大技术变革。

而从厂商们在LLM方面的各种动作上,也能感受到整个RPA行业AI大模型融合趋势已经奔流不息。

既然聊到RPA引入AI大模型,顺便也说说大家关注的如何引入大模型的问题。

在LLM技术的引入与研发方面,不管厂商们推出何种形式的产品,目前应用LLM一般有三种方式:

第一种是直接调用API。厂商们会根据需要直接调用GPT、文心一言等国内外模型的API,也是最简单的集成生成式AI的方式,很多企业的软件系统都可以快速以这种方式引入生成式AI。

第二种是私有化部署+模型微调。把模型厂商开放的模型部署到本地或企业云后,将其优化为一个预训练的面向企业所在领域的大模型,利用 prompt(提示词) 的方式去引导模型生成领域场景化的内容。由于数据安全的需求,目前大型企业都在用这种方式引入模型。

第三种是面向特有技术或者业务模式的原生模型研究,在RPA领域这样的模型一般是面向automation的原生模型。除了引入外部AI大模型之外,目前很多厂商都已经在自有模型方面做了相应的投入与研发。同时因为当代RPA是与AI融合的产品,厂商们也在持续对相关的AI架构、模型等进行研发。

需要说明的是,因为不同厂商对业务流程、产品理念、技术趋势等的不同理解所造成的风格迥异的自有原生模型,也是其核心竞争力之一。

AI大模型的应用,再次证明当代RPA与AI技术连接与融合的紧密性。当然,随着更多AI厂商引入ChatGPT等生成式AI,RPA产品也开启新的AI大模型变革之路。

LLM重新定义RPA

上面介绍的RPA厂商应用AI大模型的三种方式,来自于王吉伟频道与弘玑Cyclone CPO贾岿博士的交流。

贾岿博士在硅谷工作了二十余年,在微软、亚马逊、思科、UiPath都担任过重要职位。基于其对硅谷科技发展以及AI技术的深入了解,他对LLM如何影响RPA有着独到的见解。

在贾岿博士看来,RPA与GPT的融合并不是简单叠加,而是一种深刻的变革。

大家知道,让RPA机器人取代人去稳定操控PC桌面的难度很高。RPA 要处理的事情比Office应用操作复杂得很多,它面向整个桌面上各种各样的APP,会遇到各种各样的干扰,是一个非常复杂的操作过程。

目前的RPA产品已经非常成熟,但在体验上仍会出现各种各样的问题。要真正达到像使用office一样丝滑地使用RPA,还有相当的距离。

但随着GPT这类多模态AI技术的引入,RPA之前所遇到的很多问题都将被解决。GPT 等AI大模型和现有的RPA 技术的模态进行重组,在强化学习、多重决策、虚拟人等技术的加持之下,RPA 在智能方面开始从感知智能进入初步的认知智能。

RPA会对人的意图有真正的理解,然后帮助用户做一些决策,并在执行任务时产生越来越多的预生成算法类推荐指导,让用户可以更简单地通过自然语言交互进行RPA开发。

因此融合LLM技术的下一代 RPA ,在用户体验上会有一个质的飞跃,RPA将会变成真正意义上的数字员工。

以上说法过于学术和技术,更简单的理解是,现在的RPA 像一个加了几个基本传感器数字手指,GPT的接入则让RPA多了一个头脑。

RPA与GPT相结合,相当于把“手(RPA)”“脑(GPT带来的内容生成/意图理解/智能对话/决策)”“眼(OCR/CV)”“耳/嘴(chat对话)”各种能力进行有机结合,自然能够为广大组织带来更智能的RPA数字员工。

事实上,AI大模型的引入为RPA带来的远不止多了一个大脑,更是带来了深度的产品变革。

自RPA诞生开始,厂商们无时无刻不在探索如何通过更好的技术去实现屏幕抓取。但屏幕抓取、视觉识别如何发展,却始终脱离不了拖拉拽或者搭积木的产品形态。

引入GPT之后,用户就可以通过自然语言交互驱动RPA的流程创建,以及生成各种各样的结构化数据。这意味着以后用RPA开发自动化应用程序可能再也不需要拖拉拽或者写脚本了,也意味着用AI生成的结构化数据会替代更多的非结构化数据,同时在非结构化数据转化方面比现在的OCR要快速高效得多。

简单地讲,数字经济或者数字运营,就是所有信息化系统以及数字化业务都是数据的衔接交互、计算处理与分析决策的过程,基于RPA的超自动化则实现了让整个过程实现自动化运作。

RPA结合GPT之后,自动化的整套逻辑改变了,处理数据模式改变了,人机交互的形式改变了,业务运作流程也改变了,甚至就连企业信息化架构以及组织框架都会跟着改变。

也就是说,GPT等AI大模型将会由内而外地变革RPA的产品形态,也会进一步加速组织运营中的自动化生态的变革。

GPT落地的最佳载体

在人机交互上,GPT等大模型为组织经营带来的最大变化,是改变了人们操作软件系统的模式。人只需要跟GPT交互,多模态AI在理解人类操作意图后,进一步驱动组织企业管理软件的自动化执行各种业务流程。

对RPA来说,RPA以UI自动化和API自动化组合的形式连接了支撑组织业务运营的各种企业管理软件系统,GPT等AI大模型则进一步连接了人与RPA等系统,让操作更加简单。

GPT向上连接人的意图,向下指挥RPA机器人,成为人和RPA等自动化系统之间的一个纽带。GPT把人和基于RPA的超自动化连接起来,第一次让RPA通过自然语言理解了人的意图,这是人机交互体验上一个巨大的进步。

这同时也意味着,未来对所有企业管理软件的操作,可能就是打一行字或者说一句话。

这个事情,RPA厂商们正在做。目前厂商们推出的GPT+RPA应用,基本都能通过输入几句话实现调动RPA机器人执行任务或者创建相关程序。

需要说明是,现在已经出现了一些基于GPT的使用自然语言创建应用的SaaS类产品,比如OpenGPT、Prisms AI等,包括基于GPT-4的ChatGPT已经可以直接运行生成的代码程序。

但这些都是简单的独立应用,并不能像融合GPT的RPA一样能够创建面向连接多个企业管理软件的自动化程序。并且以后生成式AI创建的程序会以倍数增长,这些程序都将被嵌入到企业运营的工作流中,就更需要RPA等工具将其串联到自动化流程中。

换句话说,以后由AI生成的大量应用都要借着基于RPA的超自动化嵌入组织业务流程以实现最终落地。这样,融合LLM的RPA就显得更加必要和重要。

自动化业务流程是RPA的专长,GPT等AI大模型则让这个专长更加快速、高效和稳定。

GPT的特点是自然语言理解和生成内容,并不能直接驱动大量的企业管理软件,大量的自动化业务操作还需要借助企业原有的自动化生态系统,因此GPT的落地就更加需要基于RPA的超自动化能力。

一直以来王吉频道都有一个的观点:RPA是AI落地的最佳载体。

对于AI技术而言,自动化系统是很好的落地载体,毕竟AI存在的一个重要意义就是为了实现人类的终极自动化愿景。因此,大量组织已经构建的基于RPA的流程自动化体系,也就成了LLM的更好的落地载体。

未来不只是GPT,多家大模型厂商的AI技术都要借助基于RPA的自动化等载体更好地落地。

而当GPT与RPA真正落地之后,其为组织所带来的就远不止RPA+AI那样简单了。

从AI+RPA到AIxRPA

当代RPA的发展基于AI技术,这点早已人所共知。自2019年中国RPA元年开始,RPA领域在探索的都是RPA+AI或者AI+RPA。

事实上RPA+AI有两层意思:一是表示现在的RPA产品中都包含AI技术,RPA正在借助AI实现新的发展,有了更强的能力和更多的应用场景;二是RPA产品一直在持续融合各种最新AI技术,超级自动化架构出现更是把这一点发挥到了极致,现在它还在不断纳入与RPA相关的最新技术,包括目前的AI大模型。

在RPA与AI的融合发展上,相对于过去5年的RPA+AI,贾岿博士提出了一个新的概念:RPAxAI。

他认为,在LLM之前,RPA一直在做叠加AI技术能力的事,现在它所融合的OCR、NLP、流程挖掘、低代码、Chatbot等都是AI技术的一部分或者基于AI的工具或平台。但不管怎么去叠加这些技术,对于RPA而言,AI技术都是嵌入式或者外挂的存在。

现在有了GPT等AI大模型就不一样了,GPT将变成用户与RPA之间的智能连接器。用户用自然语言将需求告诉GPT,GPT能够理解用户的意图并将之转化的命令,传达并指挥RPA去执行各种任务,将用户需求转化为具体执行并反馈结果。

所以,与之前RPA+AI在做加法相比,现在的GPT与RPA的结合是在做乘法。做乘法的意思是,用 GPT等大模型原生的方式去驱动RPA的模式将会成为新的智能RPA范式以及自动化运行模式,AI大模型以及未来的通用人工智能将会成为RPA不可分割的一部分,也将会成为RPA的核心构成部分。

大模型作为多模态通用人工智能,会替代目前RPA已经“+”的CV、OCR、NLP、Process Mining等多种AI技术。未来一个多模态AI技术就能胜任RPA对各种AI技术的需求,RPA也就不再需要去“+”当前各种各样的零碎AI技术。

也就说,LLM为RPA带来的是AI能力大一统的时代,RPA不再需要像打补丁一样去集成各种技术。这同时意味着,RPA 已经离不开GPT。

现在主流RPA厂商基本都引入了GPT或者相应的AI大模型,当GPT所带来的自然语言成为用户与RPA交互的主要方式之后,更快的效率、更稳定的运行以及更好的体验,将会让人们将再也离不开它。下一代RPA如果没有GPT,从技术到设计再到运营等都将无所正常运行。

所以RPA与GPT等大模型的结合将会产生指数级的化合反应,对比之前的RPA+AI,这种技术样态、产品形态、运作模式以及商业生态完全可以总结为RPAxAI。

在王吉伟频道看来,RPAxAI除了展现出AI为RPA所带来的深刻变革以及GPT已经成为RPA必需,更意味着数字生产力的跃升,极简操作、更好体验、更高效率以及更低成本的融合AI大模型的超级自动化产品和企业级解决方案,将会助力广大组织基于自动化完成数字化转型的进一步蜕变。

后记:LLM带来的企业级RPA机会

技术说破天,最终呈现给客户的还是能不能打造出安全、稳定与高效运行的RPA系统,这也是衡量厂商企业级RPA能力的关键。

企业级的RPA指的是一个成规模的产品、技术与服务体系,其中既有技术的深度,也有解决方案的广度,更有各种服务的厚度。比如软件集群技术能不能正常应用于大型企业的核心系统,会不会因为安全问题或者不稳定因素造成客户损失,能不能帮助企业实现成规模部署等。

而一旦涉及规模化部署,就需要厂商需要更强大的编排能力、调度能力和管理能力。

很多时候,企业级RPA的能力体现在厂商为单一客户部署RPA机器人的部署体量上。比如UiPath已经帮助安永部署了十几万个RPA机器人,在国内弘玑Cyclone也已经有机器人部署数量达到几万个的客户。

之所以提及企业级RPA,是因为AI大模型能够为其带来更大的应用与商业价值。LLM的引入进一步降低了RPA的开发难度,提升了RPA的运行效率,加强业务流程自动化的稳定性,并解决了原本存在的因RPA力不从心导致的开发环节中冗余复杂问题。

在AI大模型与RPA的具体结合上,目前弘玑Cyclone在做的是通过模型微调技术,将GPT和原有的以及新开发的组件封装在一起,构成多个具有高度场景化与参数化的智能组件,并通过自然语言或者API去驱动。

这种方式,将会成为下一代RPA的基础构建能力。贾岿博士透露,目前他们已经开发了几十款智能RPA组件,上半年能够开发上百个智能RPA组件。

从目前各家厂商放出的信息来看,智能组件已经成为RPA产品的主流模式。可以想象,当所有厂商提供的融合LLM的智能组件在更多的企业中应用,那将是一个什么样的场景。

事实上,对于LLM对RPA的影响,红杉资本早在《Generative AI: A Creative New World》文章中给出了启示。该文中给出的生成式AI平台应用程序市场格局图中,特别提到了RPA。

王吉伟频道认为,这里的RPA更多的是指企业级RPA,并且也只有企业级RPA才能更好的发挥出LLM的优势。

LLM加强了RPA的企业级能力,也让更多企业重新燃起对RPA的兴趣,并对大规模部署RPA有了更多的信心。无疑,这将进一步提升RPA在各领域的渗透率以及厂商们的市占率。

而随着企业级RPA在更多业务场景的快速落地,广大组织也将能够基于流程自动化实现更有成效的数字化转型,对于其持续追求的增效降本有着重要意义。

同时,更简单的人机交互也将RPA人人可用的愿景照进现实,轰轰烈烈的全民开发时代也正式拉开了帷幕。

AI大模型给了厂商们重新定义RPA的机会,也实现了更多组织简单、快速、高效、安全应用流程自动化的愿望。

一个崭新的RPAxAI时代已然到来。

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与交流。】


http://www.ppmy.cn/news/47959.html

相关文章

西北乱跑娃 -- centos7安装python3.8最全教程

Centos7安装Python3.8详细教程 安装编译相关工具 yum -y groupinstall "Development tools" yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel yum install …

java 内置锁

java 内置锁 1.java内置锁是一个互斥锁,也就说明最多只有一个线程能够获得该锁,当线程A获得锁时,线程B想要尝试获得锁的时候,必须等线程A释放锁,若线程A一直不释放锁,则线程B一直等待处于阻塞状态中。获取…

Java锁的区别:独占模式与共享模式

目录 前言: Java 独占模式的锁有哪些? 共享模式的锁有哪些? Java即是 独占模式又是共享模式的锁有哪些? 前言: 资源有两种共享模式,或者说两种同步⽅式: 独占模式(Exclusive&am…

类图(类之间的关系)

一.概述 类图(Class diagram)是显示了模型的静态结构,特别是模型中存在的类、类的内部结构以及它们与其他类的关系等。类图不显示暂时性的信息。类图是面向对象建模的主要组成部分。在软件工程中,类图是一种静态的结构图,描述了系统的类的集合…

MySQL调优笔记——慢SQL优化记录(2)

今天调优的原因是,有一个统计报表业务,查询的时间太慢;同时由于数据库的压力是随机性的,这个业务的执行下限和上限相差近20倍;快的时候可以达到600ms,慢的时候有9秒之多; 接下来详细介绍&#x…

SOFA Weekly|SOFARPC 5.10.0 版本发布、SOFA 五周年回顾、Layotto 社区会议回顾与预告...

SOFA WEEKLY | 每周精选 筛选每周精华问答,同步开源进展 欢迎留言互动~ SOFAStack(Scalable Open Financial Architecture Stack)是蚂蚁集团自主研发的金融级云原生架构,包含了构建金融级云原生架构所需的各个组件&am…

水电设计院信息管理系统1.0

水电设计公司信息管理系统软件使用说明书 代码太多就不贴了,请在我的资源里下载,已部署在企业进行试运行。https://download.csdn.net/download/weixin_44735475/87704302 目录 1.引言 1 2.项目背景 1 3.系统功能 2 3.1系统功能 2 3.2系统性能 2 3.3系…

精通 TensorFlow 2.x 计算机视觉:第二部分

原文:Mastering Computer Vision with TensorFlow 2.x 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,…

【洛谷】P1631 序列合并

【洛谷】 P1631 序列合并 题目描述 有两个长度为 N N N 的单调不降序列 A , B A,B A,B,在 A , B A,B A,B 中各取一个数相加可以得到 N 2 N^2 N2 个和,求这 N 2 N^2 N2 个和中最小的 N N N 个。 输入格式 第一行一个正整数 N N N; 第二…

湫湫系列故事——减肥记Ⅰ

文章目录 湫湫系列故事——减肥记Ⅰ程序设计程序分析湫湫系列故事——减肥记Ⅰ 【问题描述】 对于吃货来说,过年最幸福的事就是吃了,没有之一! 但是对于女生来说,卡路里(热量)是天敌啊! 资深美女湫湫深谙“胖来如山倒,胖去如抽丝”的道理,所以她希望你能帮忙制定一个食…

Omniverse Replicator的“Hello World”

核心功能——Replicator的“Hello World” 学习目标 本教程的目的是介绍基本的 Omniverse Replicator 功能,例如使用一些预定义的 3D 资产创建一个简单的场景,应用随机化,然后将生成的图像写入磁盘以进行进一步处理。 使用复制器 API 要运…

淌入客户市场的“深水区”,锐捷云桌面体验再升级

作者 | 曾响铃 文 | 响铃说 现阶段,云桌面的普惠价值随着行业应用的深化正在不断突显。 以教育为例,教育信息化建设已经跨过了从无到有的阶段,目前正面临着如何降本增效的问题。云桌面的应用,正在有效地解决这个问题。 在响铃…

Java中的null总结

日常工作,遇见几次null的语法报错,整理以下Java中null: 🍁 null是一个关键字,对大小写敏感,像public、static… 🍁 null是所有引用数据类型的默认值(int默认0、boolean默认false…)…

智能面板小程序如何实现跨端开发,并无缝引入ChatGPT?

如何让开发者更便捷高效地开发面板小程序? 全球化 IoT 开发平台服务商涂鸦智能(NYSE:TUYA,HKEX:2391)原先提供的是一套基于 React Native (简称 RN) 的面板 SDK,但是随着面板规模的不断增长&am…

工程项目管理系统源码+spring cloud 系统管理+java 系统设置+二次开发

工程项目各模块及其功能点清单 一、系统管理 1、数据字典:实现对数据字典标签的增删改查操作 2、编码管理:实现对系统编码的增删改查操作 3、用户管理:管理和查看用户角色 4、菜单管理:实现对系统菜单的增删改查操…

采购系统是如何管理供应商的?

随着数字化的推进,企业面临着越来越多的供应商管理问题。企业采购数字化转型已经成为大势所趋,对于采购数字化转型而言,供应商管理是重要一环。 供应商准入管理 在供应商准入阶段,企业需要从供应商资质、财务能力、信誉能力、管理…

redis笔记——springboot集成redis

Sprigboot整合 springboot整合数据操作一般会通过官方的一个项目springdata来进行整合,它可以操作很多市面上流行的数据库,并且为java程序提供一套完整的统一的api调用。在springboot2版本之后,原本的jedis被替换成功了lettuce。原因是 jed…

Java读取文件方式

IO流读取 文本内容 按行读取文件内容 指定编码格式(推荐) public static void main(String[] args) throws UnsupportedEncodingException {read("D:\\test.txt");}public static void read(String path) {BufferedReader reader null;try …

DNS服务器 - 理论

DNS服务器 1. 概念2. DNS域名结构3. 域名的分级4. 域名服务器4.1 层次结构4.2 DNS服务类型 5. 域名解析过程5.1 递归查询与迭代查询5.2 解析流程1. 迭代查询2. 递归查询 6. 高速缓存7. 加上主机缓存后的DNS解析流程8. 常见的域名解析记录9. DNS正向解析和反向解析10. 配置文件介…

Ubuntu上跑通PaddleOCR

书接上文。刚才说到我已经在NUC8里灌上了Windows Server 2019。接下来也顺利的启用了Hyper-V角色并装好了一台Ubuntu 22.04 LTS 的虚机。由于自从上回在树莓派上跑通了Paddle-Lite-Demo之后想再研究一下PaddleOCR但进展不顺,因此决定先不折腾了,还是从x6…