文件的读取与写入
| 常用读文件方法 | 说明 |
| -------------- | ---------------- |
| read_csv | 读取CSV文件 |
| read_excel | 读取Excel文件 |
| read_html | 读取网页HTML文件 |
| read_table | 通用读取方法 |
| 常用写文件方法 | 说明 |
| -------------- | ----------- |
| to_csv | 写csv文件 |
| to_excel | 写Excel文件 |
1、读取文件常用的参数
pandas.read_csv(
filepath_or_buffer=None,
sep=',',
delimiter=None,
header=None,
names=None,
index_col=None,
usecols=None,
skiprows=None,
na_values=None,
nrows=None,
chunksize=None,
encoding=None,
):
| 参数 | 说明 |
| ------------------ | ------------------------------------------------------------ |
| filepath_or_buffer | 读取文件的路径或对象 |
| sep/delimiter | 输出文件的字段分隔符, 默认字符"," |
| header | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
| names | 自定义列名/列索引 |
| index_col | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
| usecols | 只读取选中的列 |
| skiprows | 跳过行读取 |
| na_values | 个性化数据,将指定的数据变为缺失值NaN |
| nrows | 数据按指定行显示 |
| chunksize | 数据按指定行进行分块 |
| encoding | 设置编码格式 |
注意事项:
1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的
2、写入文件参数
```
df.to_csv(
path_or_buf=None,
sep=',',
columns=None,
header=True,
index_lable=None,
index=True,
encoding=None,)
```
| 参数 | 说明 |
| ----------- | ---------------------------------- |
| path_or_buf | 写入文件的路径或对象 |
| sep | 输出文件的字段分隔符, 默认字符"," |
| columns | 空值写入后的顺序,也可选列写入 |
| header | 布尔值,默认为True,写入列名称(索引) |
| index_label | 选择列作为 行索引 |
| index | 布尔值,默认为True,写入行名称(索引) |
| encoding | 设置写入的编码格式 |
excel表格读取写入特点
所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点
1、写入excel文件需要依赖模块-openpyxl
```python
安装: pip install openpyxl
```
2、读取excel文件需要依赖模块-xlrd
```
安装: pip install xlrd
df.to_excel(
excel_writer,
sheet_name="Sheet1",
columns=None,
header=True,
index=True,
index_label=None,
encoding=None,
)
```
| 特有的参数 | 说明 |
| ------------ | ------------------- |
| excel_writer | ExcelWriter目标路径 |
| sheet_name | excel工作表名命名 |
- read_excel
pandas.read_excel(
io,
sheet_name=0,
header=0,
names=None,
index_col=None,
usecols=None,
skiprows=None,
nrows=None,
na_values=None,
)
```
| 特有的参数 | 说明 |
| ---------- | ------------------------------------------------------------ |
| io | excel路径 |
| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |
当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存