ChatGPT时代:数据标注会成为一种人机交互“语言”么?

news/2024/11/24 3:31:58/

   标注猿的第70篇原创  
 一个用数据视角看AI世界的标注猿  

大家好,我是AI数据标注猿刘吉,一个用数据视角看AI世界的标注猿。

从去年的10月份到现在有半年的时间没有更新了,去年没有更新是疫情的原因,今年没有更新主要有两个原因一是因为在拼命的“活着”,二是变化太快了,有点懵状态。

到去年年底或许行业内有超过一半的标注供应商公司倒闭,不在从事相关业务了。当然也有一部分公司转型成功了,据我了解有一些转型做抖音的相关业务也有比较好的结果的。当然也有越做越大的小伙伴,非常令人佩服。

所以在年初的时候也跑了一些地方和一些行业内的大牛们聊了聊,本来在聊完之后想写一篇文章,但是聊完之后感觉没有写的意义了。

随后的一个多月里ChatGPT席卷全球,又看不懂了,感觉整个国内的人工智能行业都被打蒙了“1秒”。

最近又和一些小伙伴交流,也请教了一些大咖,关注一些行业的信息,也有了一些思考,决定还是回归数据视角看AI的本质,去写一些内容和大家分享交流。所以本文就从三个方面和大家聊聊:

  • 数据标注业务的增量在哪?

  • GhatGPT的冲击

  • 数据标注会成为一种人机交互“语言”么?

一.数据标注业务的增量在哪?

总所周知,数据标注行业的业务从数据类型上类区分是图片、音频、文本、视频,而目前行业主体的业务需求大多来源于图片类的,而图片类的大部分需求源于自动驾驶相关标注的业务。

年初的时候,看到一篇36氪发布的一篇文章,文章介绍了几个标注服务商公司的业务增长非常高,有的都已经达到了442%,而一些主机厂的数据标注的投入也从几十万、几百万增长到了数千万甚至大几千万的级别。

所以至少在3月底之前大家对于数据标注今年的市场增量还是信心满满,预期着自动驾驶厂商今年的投入有会有一个非常大规模化的增长。

但是能单纯的认为是数据标注行业的增量么?或许是否定的,单从自动驾驶标注业务来看,实际客户源是很有限的,国内能做的起自动驾驶的公司和主车厂是非常有限的,而愿意实打实花大资金重投的或许是更有限的。

源于自动驾驶业务带来的增量在数据量上的确有增加,但是如果客户数量没有增加的话就会促使内卷进一步加剧。所以从行业增量来说,我认为是没有增量的,毕竟客户总量几乎没有增加。

逻辑很简单,一个主机厂不会把“鸡蛋”放到一个篮子里,而能接主机厂的数据标注供应商大多是规模比较大(关系户)或者平台方,而一般至少也会找3家及以上,那么竞争就来了,或许你会在不同的平台看到同样的项目,价格却不一样。

而从目前来看已经到了5月份、6月份了,年初所预期的井喷式的任务却没有如期而至,是大环境不好预算减少了、还是技术方案调整了?我们还不得而知。

二.ChatGPT的冲击

ChatGPT从文本类再到多模态的表现的确给所有人来了很大的冲击,虽然也有人认为没什么突破,就是数据量大了。但的确让每个人、每个行业都或多或少可以利用这个工具为自己做一些事情。

甚至有些人在思考ChatGPT会不会取代人类,会不会导致很多人失业?我认为不会取代人类,会让一部分失业,但是最恐怖的一件事儿是未来会有一部分人慢慢会会被AI提供的信息所供养。

ChatGPT对我冲击最大的两点是:

  1. 有意思的是在ChatGPT出现以后,很多投资人很多公司疯狂的开始吹捧大模型,虽然不知道最终会留下几家,毕竟这种基础的大模型投入太大,而最终能站到“金字塔”尖会非常少。

    但这个过程也发生了一些非常有意思的事儿,最先通过ChatGPT赚到钱的人却是一批教普通人使用ChatGPT的人。从如何注册到如何使用,甚至看到了教别人如何向ChatGTP提问才能得到更好的答案。

    看到这点的时候,从数据的角度我突然意识到一个问题,“问题也是ChatGTP的一种数据”

    这种问题在标注里面我们通常称为“问题泛化”、“问题扩展”。但这种问题的泛化、扩展其实很难通过标注人员人为的处理。所以才会出现很多人问的问题也想要的答案有出入,但是如果换一种方式问,可能就会得到更贴切的答案。

    那么在ChatGPT3.5到ChatGPT4对外开放的迭代时间用了大概半个多月的时间,或许从数据标注的角度来看,应该是更多的训练了一次在3.5开放之后问题的数据。

    所以在无意间每个使用过ChatGPT的人都成为了ChatGPT标注员,帮助它进行了一次有一次的标注。

      • ChatGPT数据的数量级

        国内的公司或许也不会拿出上百亿美元的资金去做研发,而还有一部分又要花费在数据标注这个“无底洞”上面。

      • 聚焦场景化解决方案和大模型

        从这几年国内一直看重的场景化解决方案,不太看好大模型的发展。而ChatGPT3.5和ChatGPT4打破了国内的很多认知。

        记得前几年的每年在参加很多地方举办的人工智能年度大会上,很多专家对大模型的不屑一顾,对场景化模型的吹捧还历历在目。

三.数据标注会成为一种人机交互“语言”么?

ChatGPT这种大模型的出现,之所以会席卷全球,除了有过硬的技术外,还有一个核心的问题就太易用了。任何一个非相关专业的人员,甚至都不需要多高学历的人员就可以使用。

易用、好用、就会变的易传播。

但热情退去,如何解决大模型在实际应用中“最后一公里”的问题呢?

不管是问答类、还是多模态的大模型,在我们问具体问题的时候,都会有一种感觉,看似给你了一个很“丰满”的答案,但只要你细研究,这个答案又好像没啥太大用,有一点像“废话文学”。

这也会是后面大模型落地时候的一大痛点,商业化的一个阻碍。看似非常有用,但在具体问题上有没啥用的尴尬。

这个时候在看看ChatGPT在解决问题数据泛化、扩展的思路,以及特斯拉在自动驾驶解决数据的思路就有异曲同工之妙了。

对于大模型人机交互在解决“最后一公里”问题,自主的数据标注就变的尤为重要了。

首先可以肯定的是想要ChatGPT解决很实时的具体问题时候,一定是需要给ChatGPT“投喂”一些相关的数据信息的,那么这一个过程其实就是一次数据标注的过程,但是否对于ChatGPT是有效的,我们是无法确定的。

对于数据标注来说,在大模型的长尾阶段一定是必须的,但这种必须又好像是我们在跟机器做了一次又一次的“对话”,来告诉机器我们要做什么,而这个数据标注的过程,是否可以变成一种特定的“人机交互语言”来实现呢?

作为普通人来使用AI,我们不关系技术实现、代码落地等等复杂的内核,我们更要关注的是自身的需求,并提出问题,完善问题需求,然后让AI来帮我们解决。

如果从这个角度来思考的话,数据标注是否更像是人机交互的一种语言呢?

以上就是最近关于数据标注相关内容的一点点思考,欢迎小伙伴留言讨论交流。

相关文章阅读:

  1. 自动驾驶测绘资质的信息安全要求,真的来了

  2. 甲方数据负责人供应商选择系列一

  3. AI数据标注猿知识星球私域社区开始招募啦!【文章最下面有公众号福利】

  4. 数据标注员是职位,人工智能训练师是职业

  5. 数据标注行业创业还可以么?

-----------------------完--------------------

 


http://www.ppmy.cn/news/115599.html

相关文章

1596

#include<iostream> using namespace std; int main() {int n;cin>>n;cout<<n*3return 0; }

飞利浦279C9 评测

飞利浦279C9这台4K显示器采用了四面无边框设计&#xff0c;外观设计优雅简洁&#xff0c;非常适合商务办公场景下使用。 它拥有27英寸的IPS面板&#xff0c;ppi高达163&#xff0c;为用户带来了极为细腻的画面效果。同时&#xff0c;显示器还提供了65W供电功率的Type-C接口&…

酷睿i9-9990XE介绍

英特尔从来都不缺顶级处理器&#xff0c;此前推出全新的酷睿i9发烧系列&#xff0c;性能十分强大。在酷睿i9系列中&#xff0c;“X”代表着极致性能。年初&#xff0c;英特尔发布了一款型号为i9-9990XE的处理器&#xff0c;可以视为目前i9处理器中最强型号。既然是最强&#xf…

i713790F和i912900KF对比 i7 13790F和i9 12900kf评测选哪个

酷睿i7 13790F参数配置&#xff1a;10nm的工艺制程&#xff0c;16核心24线程&#xff0c;CPU主频 2.1GHz最高睿频 5.2GHz 三级缓存 33MB热设计功耗(TDP) 65W支持最大内存 128GB内存类型 DDR4 3200MHz DDR5 5600MHz 组装电脑选i7 13790F还是i9 12900kf怎么搭配更合适这些点很重要…

达人评测 i9 13900k和i9 13900kf的区别

酷睿i9-13900K核心代号为 Raptor Lake&#xff0c;采用的是增强版的 Intel 7 工艺&#xff08;10纳米&#xff09;&#xff0c;不锁频设计&#xff0c;采用了全新的高性能混合架构&#xff0c;由8个性能核16个能效核构成&#xff0c;最终规格为24核心32线程&#xff0c;其中性能…

sch i699android4,SCH-I699

cn SCH-I699ZKACTC SCH-I699 {"softwares":[],"manuals":[{"description":"用户手册 (Android Ginger Bread)","fileName":"SCH-I699_UM_ChinaTelecom_China_Gingerbread_Chi_Rev.1.3_140409_Screen.pdf","f…

i9 9980hk和i7 9750h那个好

i9-9980HK延续14nm工艺&#xff0c;最高DDR4-2666内存。八核Core i9-9880H工作在2.30 GHz的基本频率&#xff0c;在Turbo中达到4.80 GHz 选i7 9750h还是i9-9980hk这些点很重要!看完你就知道了 https://list.jd.com/list.html? i7-9750H的主频为2.6GHz、单核睿频4.5GHz、6核睿…

299

你正在和你的朋友玩 猜数字&#xff08;Bulls and Cows&#xff09;游戏&#xff1a;你写下一个数字让你的朋友猜。每次他猜测后&#xff0c;你给他一个提示&#xff0c;告诉他有多少位数字和确切位置都猜对了&#xff08;称为“Bulls”, 公牛&#xff09;&#xff0c;有多少位…