4.1 数据分析-excel 基本操作

news/2024/9/17 3:12:54/ 标签: 数据分析, excel, 数据挖掘

excel__0">第四节:数据分析-excel 基本操作

课程目标

课程内容

数据伪造

产生一份招聘数据

import pandas as pd
from faker import Faker
import random
import numpy as np# 创建一个Faker实例,用于生成假数据,指定中文本地化
fake = Faker('zh_CN')# 定义一些可能的公司大小和领域
company_sizes = ['小型', '中型', '大型']
company_fields = ['科技', '金融', '教育', '医疗', '制造']# 准备数据集
data = []for i in range(1000):city = fake.city_name() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 full_name = fake.company()company_id = fake.uuid4()short_name = full_name[:2]size = random.choice(company_sizes)job_title = fake.job()business_district = fake.street_address()department = job_titleeducation_requirement = random.choice(['本科', '硕士', '博士', '无要求'])field = random.choice(company_fields)job_id = fake.uuid4() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值benefits = ', '.join(random.sample(['五险一金', '带薪年假', '年终奖', '股票期权', '弹性工作'], random.randint(1, 5)))salary = random.randint(3000, 50000) if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 experience_required = f"{random.randint(1, 10)}年"# 上班时间 8:00-10:00start_work_time = f"{random.randint(8, 10)}:00"end_work_time = f"{random.randint(18, 20)}:00"data.append([city, full_name, company_id, short_name, size, business_district, department, education_requirement, field, job_id, benefits, job_title, salary, experience_required,start_work_time, end_work_time])# 将数据转换为DataFrame
df = pd.DataFrame(data, columns=['城市', '公司全名', '公司ID', '公司简称', '公司大小', '公司所在商区', '职位所属', '教育要求', '公司所属领域', '职位ID', '职位福利', '职位', '薪水', '工作年限要求',"上班时间","下班时间"
])# 写入Excel文件
df.to_excel('company_data.xlsx', index=False)
df.to_csv('company_data.csv', index=False)print("数据已成功写入Excel文件。")
格式化
根据文本自动调整列宽

在这里插入图片描述

数据清洗
缺失值处理
  • 定位缺失值
    分别点击A列,B列,C列…
    在这里插入图片描述
    查看每列字数确定哪些列缺失
    在这里插入图片描述
  • 定位缺失值选中缺失列
    在这里插入图片描述
  • 处理缺失值
    • 删除
      在这里插入图片描述

    • 填充固定值 输入框输入值,按ctrl+enter
      在这里插入图片描述

    • 填充特殊值(平均值,总数,中位数)求出值后,方法同上

数值型
求和

比如我们要求所有薪资总量,使用SUM函数
在这里插入图片描述

求均值

使用AVERAGE函数
在这里插入图片描述

求众数

MODE.SNGL函数
在这里插入图片描述

中位数

函数MEDIAN
在这里插入图片描述

统计数量

COUNT函数
在这里插入图片描述
有值的有896个,说名有缺失值

文本型
查找

比如看下哪些公司有带薪年假,有则为位置,没有则为0,需要FIND函数和IFERROR函数配合使用
在这里插入图片描述

字符长度

如获取福利待遇长度,后面通过该长度对优秀公司排序
LEN函数
在这里插入图片描述

左截取

比如获取公司名字简称,可以用LEFT函数
在这里插入图片描述

右截取

比如要获取公司类型,用RIGHT函数,截取后6个字符
在这里插入图片描述

连接

比如将上下班时间连在一起
CONCATENATE函数
在这里插入图片描述

分析
排行

获取当前福利待遇的排行 RANK函数
在这里插入图片描述

筛选满足条件的并排行

在这里插入图片描述


http://www.ppmy.cn/news/1522028.html

相关文章

【视频讲解】Python贝叶斯卷积神经网络分类胸部X光图像数据集实例

全文链接:https://tecdat.cn/?p37604 分析师:Yuanchun Niu 在人工智能的诸多领域中,分类技术扮演着核心角色,其应用广泛而深远。无论是在金融风险评估、医疗诊断、安全监控还是日常的交互式服务中,有效的分类算法都是…

PHP轻量级高性能HTTP服务框架 - webman

摘要 webman 是一款基于 workerman 开发的高性能 HTTP 服务框架。webman 用于替代传统的 php-fpm 架构,提供超高性能可扩展的 HTTP 服务。你可以用 webman 开发网站,也可以开发 HTTP 接口或者微服务。 除此之外,webman 还支持自定义进程&am…

计算机基础知识-2

x86架构的寄存器 AT&T汇编和Intel汇编的区别 每取出完一条指令,PC会自动+"1",指向下一条要被执行的指令。这里的1是指下一条指令,但是指令本身可能占用多个字节,所以地址可能不是以1叠加 当前执行的是10…

实现简单聊天

管道通信 目的: 实现 xxz 与 zy 之间的通讯聊天 功能: 同一网络下进行的模拟通讯实现 缺点:没有涉及到网络的通信,只是简单的进程之间模拟的通信 采用到的技术点: 1 有名管道 优点: 在文件系统中作为一…

【自然语言处理】调用NLTK数据失败‘wordnet‘和‘punkt‘不存在[Errno 11004]问题解决

wordnet报错 明明已经按照了nltk包&#xff0c;但使用 WordNet 语料库时依然报错提示数据不存&#xff0c;依据以下代码在python中下载wordnet仍然报错&#xff1a; import nltk nltk.download(wordnet)运行后始终提示&#xff1a; [nltk_data] Error loading wordnet: <…

大白话【12】网络虚拟化

1.VMware网络三种工作模式 1.桥接网络&#xff1a;虚拟一个交换机在内存里面&#xff08;ovs&#xff09;&#xff0c;叫vmnet0如果你的物理机可以上外网&#xff0c;那么虚拟机也可以上外网2.NAT网络&#xff1a;将内网转换成外网叫vmnet8桥接和NAT既然都可以上外网&#xff…

PCDN 技术如何保障网络安全(壹)

在当今数字化时代&#xff0c;网络安全成为了至关重要的问题。PCDN&#xff08;Peer-to-Peer Content Delivery Network&#xff09;技术在提升内容分发效率的同时&#xff0c;也采取了一系列措施来保障网络安全。 一、加密传输与数据保护 PCDN 技术采用先进的加密算法对传输中…

[linux 驱动]platform总线设备驱动详解与实战

目录 1 描述 2 结构体 2.1 bus_type 2.2 platform_bus_type 2.2.1 platform_match 2.2.2 platform_uevent 2.2.3 platform_dma_configure 2.2.4 platform_dev_pm_ops 2.3 platform_driver 2.4 platform_device 3 platform注册 3.1 platform_driver_register 3.1.1 …

【网络安全 | 甲方建设】开发、测试、部署关键词详解

原创文章,不得转载。 文章目录 需求与开发原生需求重构新增服务调用测试与覆盖率单元测试增量代码单测UT覆盖率CR前覆盖率APP回归测试回归测试自动化冒烟部署与环境Stable环境部署待部署服务名称代码分支待部署代码分支PR链接灰度发布蓝绿发布Canary发布热修复(Hotfix)Mock环…

2024年高教杯国赛(B题)数学建模竞赛解题思路|完整代码论文集合

我是Tina表姐&#xff0c;毕业于中国人民大学&#xff0c;对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在&#xff0c;我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

828华为云征文 | Flexus X实例CPU、内存及磁盘性能实测与分析

引言 随着云计算的普及&#xff0c;企业对于云资源的需求日益增加&#xff0c;而选择一款性能强劲、稳定性高的云实例成为了关键。华为云Flexus X实例作为华为云最新推出的高性能实例&#xff0c;旨在为用户提供更强的计算能力和更高的网络带宽支持。最近华为云828 B2B企业节正…

docker registry 仓库加密

docker registry 仓库加密 1、背景 ​ 公司一直用的镜像仓库是docker registry&#xff0c;但是有个安全问题&#xff0c;就是仓库从web ui的浏览到镜像的拉取都是可以直接使用的&#xff0c;还是放到了公网上&#xff0c;只需要知道你的域名那就是畅通无阻了&#xff0c;可以…

Python 数据分析— Pandas 基本操作(上)

文章目录 学习内容&#xff1a;一、Series 创建及操作二、DataFram 的创建与操作三、Pandas 的读写操作四、选择指定行列数据 学习内容&#xff1a; 一、Series 创建及操作 ** Series : Pandas 的一种数据结构形式&#xff0c;可理解为含有索引的一维数组。** **&#xff08;…

数据分析-13-时间序列异常值检测的类型及常见的检测方法

参考时间序列异常值的分类及检测 参考异常值数据预警分析 1 时间序列异常的类型 时间序列异常检测是数据处理和分析的重要环节,广泛应用于量化交易、网络安全检测、自动驾驶汽车和大型工业设备日常维护等领域。在时间序列数据中,异常通常指的是与正常数据模式显著不同的数据…

西方社会学理论教程(侯均生)笔记

西方社会学理论 导言 一、学习《西方社会学理论》的目的 通过学习社会学发展史上各个思想名家的研究方法和社会理论&#xff0c;在自觉模仿和实践的基础上&#xff0c;形成自己看待社会现象和社会问题的思维方式和理论视角。 二、社会学发展史 &#xff08;一&#xff09;古…

【架构-29】RPC

RPC&#xff08;Remote Procedure Call&#xff0c;远程过程调用&#xff09;框架是一种用于实现分布式系统中不同节点之间通信和调用的技术框架。 一、为什么需要 RPC&#xff1f; 实现分布式系统 在现代的软件应用中&#xff0c;尤其是大规模的企业级应用和互联网服务&…

设计模式学习-简单的命令模式例子

上一章节介绍过了命令模式&#xff0c;这一篇文章就简单的做一个小案例来巩固学习 搭建场景 简单的搭建一个场景就行 &#xff0c;随便准备一个物体放在场景中位置Reset一下即可。 代码编写 定义接口&#xff08;或者抽象类&#xff09;ICommand 用来规范Command的行为。注意…

Spring及Springboot事件机制详解

程序设计的所有原则和方法论都是追求一件事——简单——功能简单、依赖简单、修改简单、理解简单。因为只有简单才好用&#xff0c;简单才好维护。因此&#xff0c;不应该以评论艺术品的眼光来评价程序设计是否优秀&#xff0c;程序设计的艺术不在于有多复杂多深沉&#xff0c;…

idea配置svn发现安装的svn中的bin目录下没有svn.exe文件

问题描述 使用idea配置svn时&#xff0c;发现安装的svn没有svn.exe文件 解决方法 1、双击svn安装包&#xff0c;找到【modify】 2、默认安装时&#xff0c;没有安装command line client tools&#xff0c;里面是有svn.exe 3、选择will be installed on local hard drive 4、…

x264 编码器 AArch64汇编系列:deblock 去块滤波相关汇编函数

deblock 在x264_deblock_init函数中定义各种 deblock 实现的方法: 以亮度分量垂直方向滤波为例 c 语言实现亮度分量垂直滤波函数:deblock_v_luma_cstatic ALWAYS_INLINE void deblock_edge_luma_c( pixel *pix, intptr_t xstride, int alpha