AI数据分析:用DeepSeek做数据清洗

server/2025/3/1 16:17:03/

在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。

数据清洗是数据分析的基础,其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括:

  1. 缺失值:数据中的某些字段为空。

  2. 重复值:数据中存在重复记录。

  3. 异常值:数据中存在明显偏离正常范围的数值。

  4. 不一致性:数据格式或单位不统一。

如果不进行数据清洗,这些问题会导致分析结果偏差,甚至误导决策。

以下是一个使用 DeepSeek 清洗销售数据的实际案例。

假设我们有一个销售数据表

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E1500
1007102商品B8400
1008103商品C251250
1009106商品F00
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1017109商品I00
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G60
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1029107商品G552750
1030108商品H1809000

接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下:


# 角色: 
数据分析与数据预处理专家## 背景: 
用户在处理数据时遇到数据质量问题,需要对数据进行清洗以确保数据的准确性、完整性和一致性,从而为后续的数据分析或机器学习模型训练提供高质量的数据基础## 注意:
1、数据清洗是一个复杂且耗时的过程,但它是确保数据质量的关键步骤。
2、通过有效的数据清洗,可以显著提高数据分析的准确性和可靠性。## 技能:
1、熟悉数据清洗的常用技术和工具。
2、具备强大的数据处理和分析能力。
3、能够识别和处理数据中的异常值和缺失值。
4、能够设计和实施数据清洗流程。## 目标:
1、识别并处理数据中的异常值。
2、填补或删除数据中的缺失值。
3、标准化数据格式,确保数据一致性。
4、去除重复数据。
5、验证数据清洗后的质量。## 约束:
1、确保数据清洗过程不会引入新的错误。
2、遵守数据隐私和安全的相关规定。
3、在数据清洗过程中保持数据的原始结构和含义。## 输出:
1、清洗后的数据应以结构化表格形式输出。
2、数据清洗报告,包括详细记录清洗过程、问题发现及解决方法。
3、建议的进一步数据预处理步骤。## 工作流:
1、接收并分析用户提供的数据集和清洗规则。
2、识别数据中的异常值和缺失值。
3、根据清洗规则处理异常值和缺失值。
4、标准化数据格式,去除重复数据。
5、验证数据清洗后的质量,生成清洗报告。## 初始化:
Initialization: 在第一次对话中,请直接输出以下:欢迎使用数据清洗服务。请提供您需要清洗的数据文件,我将按照数据隐私和安全原则,为您进行高效、透明的数据清洗。您可以上传数据文件,告诉我您关注的数据质量问题,我将为您提供专业的解决方案。

接下来我们将这个提示词发给大模型看看效果。

数据清洗报告

1. 数据问题识别

通过初步分析,发现以下数据质量问题:

  1. 重复值:订单ID为 1029 的记录出现重复。
  2. 缺失值:订单ID为 1021 的记录中,销售额(元) 缺失。
  3. 异常值
    • 销量 为 0,但 销售额(元) 也为 0(订单ID:1009 和 1017),可能是无效记录。
    • 销量 和 销售额(元) 的比例异常(例如:订单ID:1006,销量为 1,销售额为 500,可能存在输入错误)。

2. 数据清洗过程
2.1 删除重复值

删除订单ID为 1029 的重复记录。

2.2 填充缺失值

对于订单ID为 1021 的缺失值,根据商品G的平均单价进行填充:

  • 商品G的销售额 = 销量 × 单价
  • 计算商品G的平均单价:(2500 + 2750) / (50 + 60) ≈ 48.18
  • 订单ID 1021 的销售额 = 60 × 48.18 ≈ 2891 元

填充后:

订单ID商品ID商品名销量销售额(元)
1021107商品G602891
2.3 标准化异常值处理
  1. 销量为 0 的记录

    • 删除订单ID为 1009 和 1017 的记录,因为其销量和销售额均为 0,属于无效数据。
  2. 比例异常记录

    • 对于订单ID 1006(销量为 1,销售额为 500),根据商品E的平均单价分析:
      • 商品E的平均单价 = (500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95 元
      • 修正订单ID 1006 的销售额为 1 × 95 = 95 元。

修正后:

订单ID商品ID商品名销量销售额(元)
1006105商品E195

3. 数据清洗结果

清洗后的数据集如下:

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E195
1007102商品B8400
1008103商品C251250
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G602891
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1030108商品H1809000

4. 下一步建议
  1. 数据验证:对清洗后的数据进行统计分析,确保数据分布合理,无异常值。
  2. 特征工程:如果需要构建机器学习模型,建议进一步对数据进行特征提取和标准化。
  3. 数据监控:建议建立数据质量监控机制,定期检查数据中的异常情况。


总之,我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。


http://www.ppmy.cn/server/171580.html

相关文章

《深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)》

作者: 周志明 DeepSeek建议JVM书籍首选。 第一部分 走进Java 第1章 走进Java 世界上并没有完美的程序,但我们并不因此而沮丧,因为写程序本来就是一个不断追求完美的过程。 JAVA的优点,摆脱了平台的束缚,实现了一次…

spring注解开发(Spring整合MyBatis——Mapper代理开发模式、(Spring、MyBatis、Jdbc)配置类)(6)

目录 一、纯MyBatis独立开发程序。 (1)数据库与数据表。 (2)实体类。 (3)dao层接口。(Mapper代理模式、无SQL映射文件——注解配置映射关系) (4)MyBatis核心配…

Fisher信息矩阵(Fisher Information Matrix, FIM)与自然梯度下降:机器学习中的优化利器

Fisher信息矩阵与自然梯度下降:机器学习中的优化利器 在机器学习尤其是深度学习中,优化模型参数是一个核心任务。我们通常依赖梯度下降(Gradient Descent)来调整参数,但普通的梯度下降有时会显得“笨拙”,…

【Rabbitmq篇】高级特性----TTL,死信队列,延迟队列

目录 一.TTL ???1.设置消息的TTL 2.设置队列的TTL 3.俩者区别? 二.死信队列 定义: 消息成为死信的原因: 1.消息被拒绝(basic.reject 或 basic.nack) 2.消息过期(TTL) 3.队列达到最大长度? …

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_init_cycle 函数 - 详解(5)

详解(5) 初始化打开文件列表(open_files) if (old_cycle->open_files.part.nelts) {n old_cycle->open_files.part.nelts;for (part old_cycle->open_files.part.next; part; part part->next) {n part->nelts…

BiliBili视频下载-原理与实现Python+FFmpeg

脚本地址: 项目地址: Gazer BiliGrab.py 提要 适用于: 登录状态下, 非大会员视频下载. 自动解析任意 B 站非大会员 / 付费视频的视频 & 音频请求链接并下载, 需要添加 Cookie 保证视频清晰度. 使用 FFmpeg 命令无损合并视频和音频. 使用方法 克隆或下载项目代码.安装…

Ubuntu+deepseek+Dify本地部署

1.deepseek本地部署 在Ollama官网下载 需要魔法下载 curl -fsSL https://ollama.com/install.sh | sh 在官网找到需要下载的deepseek模型版本 复制命令到终端 ollama run deepseek-r1:7b 停止ollama服务 sudo systemctl stop ollama # sudo systemctl stop ollama.servi…

论软件设计模式及其应用-软考

软件设计模式(Software Design Pattern)是一套被反复使用的、多数人知晓的代码设计经验的总结。使用设计模式是为了重用代码以提高编码效率、增加代代码可理解性、保证代码的可靠性。软件设计模式是软件开发中的最佳实践之一,它经常被开发人员在面向对象软件开发过程中所采用…