我用AI做数据分析之数据清洗

devtools/2025/2/13 21:10:35/

我用AI做数据分析之数据清洗

AI与数据分析的融合效果怎样?
这里描述自己在使用AI进行数据分析(数据清洗)过程中的几个小故事:

1. 变量名的翻译

有一个项目是某医生自己收集的数据,变量名使用的是中文,分析的时候一般会变化成英文更方便一些,传统的手段需要查找变量名的中文,然后使用代码替换原来的列名,不复杂,无奈变量名较多,处理起来还是会花费不少的时间。

这种情况下,我尝试着将数据表格提交给AI,使用自然语言让它把“列名翻译成英文全称并符合python的命名方式”,效果可以说是非常不错,返回的新数据表中,正确地给出了符合要求的列名,也很效率。

2. 英文缩写改全称

另外一个项目,列名是缩写,有一些我自己都不知道什么含义,在我没有详细提供上下文的情况下,让AI把缩写改成英文全称。
AI也很好地完成了这个工作,并在对话框中解释了变量名的含义。
在这里插入图片描述

3. 纠正录入错误

在另外的一个项目中,部分的变量里面误录入了制表符-“\tyes”等,平时不太处理这种情况,一个一个检查也很繁琐,所以尝试使用AI来处理这个问题。与AI交流过程中,我并没有具体指出是什么样的录入错误,只说检查可能的录入错误,AI就能够将这些错误检查出来并进行纠正。

令人意外的是AI还检测出一个数值型数据的录入错误,这是没有专业知识,不容易发现的。

类似的情况,还有在自己收集的一些数据中,录入不统一的情况,比如有的中文“是”,有的是英文“yes”, 自然语言描述起来很容易,代码写起来就很复杂,我觉得AI也可以处理。
在这里插入图片描述
以上体验是基于豆包AI数据分析模块的体验,总体来说都属于语言相关的范畴,感觉是AI可以表现很好的环节,因为AI本身是LLM(大语言模型)。这一部分,严格说没有涉及LLM生成代码的部分,因为代码是在AI发现了问题之后,用来修改数据表使用的。
结论是在这一部分上AI的表现是相当合格的。AI的能力在逐步增强,如何改变即有的数据分析流程,让我们拭目以待,我也会通过一些具体的小例子来向大家描述AI在数据分析过程中的表现。


http://www.ppmy.cn/devtools/158592.html

相关文章

浏览器自动化与AI Agent结合项目browser-use初探

browser-use介绍 browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。 GitHub地址:https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars,2.7kforks&#xff…

尝试分析一下go语言和php语言对建立mysql链接有什么不同

在Go语言和PHP中建立MySQL连接的主要差异体现在连接管理、生命周期、并发处理等方面。以下是详细分析: 1. 连接管理方式 Go语言: 使用连接池(通过database/sql包管理),默认情况下自动维护连接池。 通过sql.Open()初始…

深度剖析观察者模式:从理论到实战的Java实现

在软件设计中,观察者模式(Observer Pattern) 是一种高频使用的行为型设计模式,它定义了对象之间一对多的依赖关系,使得当一个对象状态改变时,其所有依赖对象(观察者)会自动收到通知并…

ONES 功能上新|ONES Copilot、ONES TestCase、ONES Wiki 新功能一览

ONES Copilot 支持基于当前查看的工作项相关信息,利用 AI 模型,在系统中进行相似工作项的查找,包括基于已关联工作项的相似数据查找。 应用场景: 在查看工作项时,可利用 AI 模型,基于语义相似度&#xff0c…

React进阶之React状态管理CRA

React状态管理&CRA 状态管理理论讲解案例 context 上下文结合状态来维护todoListindex.jsApp.jsTaskList.jsTasksContext.jsAddTask.js Escape 脱围机制refforwardRef(不建议使用) CRA 状态管理 理论讲解 如何针对 effect -> 对action的触发 -&…

跟着李沐老师学习深度学习(七)

权重衰退 丢弃法 权重衰退(Weight Decay) 回忆:如何控制一个模型的容量(方法1:把模型变得比较小;方法2:使得模型参数的选择范围比较小) 是一种正则化模型的技术; 使用…

【注意】sql语句where条件中的数据类型不一致,不仅存在性能问题,还会有数据准确性方面的bug......

隐式类型转换规则 MySQL 在进行比较操作时,如果比较双方的数据类型不一致,通常会尝试将其中一个数据类型转换为另一个数据类型,以便进行比较。 对于 select * from t_order where order_no 1538808276987285507 ,当 order_no 为 …

自学人工智能大模型,满足7B模型的训练和微调以及推理,预算3万,如何选购电脑

如果你的预算是 3万元人民币,希望训练和微调 7B 参数规模的人工智能大模型(如 LLaMA、Mistral 等),你需要一台高性能的深度学习工作站。在这个预算范围内,以下是推荐的配置: 1. 关键硬件配置 (1) GPU (显卡…