一、引入工具模块
import numpy as np #科学计算模块
import pandas as pd #数据处理和数据分析模块
import Matplotlib as #数据可视化模块
二、读取数据
df = pd.read_excel(....)
df = pd.read_csv(....)
df = pd.read.table(....)
......
三、查看数据
df.head() # 查看前五条
df.tail() #查看尾部五条
df.sample() #随机查看五条
四、验证数据
df.shape # (12,13) 查看行数与列数
df.info () #查看索引、数据类型和内存信息
df.describle () # 查看数值型列的汇总统计
df.dtypes #查看个字段类型
df.axes # 显示数据行和列
df.columns #列名
五、建立索引
df.set_index('name',inplace=True) # 已 name 该列进行建立索引并生效
六、数据读取
###查看列
df['Q1'] #默认查看的是列,Q1列
df[['team','Q1']] #只看这两列,注意括号
df.loc[:,['team','Q1']] #效果一样,loc是显性序列,iloc隐性序列
###查看行
df[df.index == 'number'] # 指定行号,使用指定索引
#用自然索引选择,类似列表的切片
df[0:3] #取前三行
df[0:10:2] #在前10个中每两个取一个
df.iloc[:10,:] #前10个