1、指定文件默认编码格式解决中文乱码问题
在.py文件头部添加这行代码
# -*- coding:utf-8 -*-
#如果在Python2.x下添加了上面的配置还出现中文乱码,则加以下配置
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
2、将数据以jsonl格式写入文件
#out_path:输出文件路径;datas:字典数组;mode:追加(a)或者覆盖(w)
def write_to_jsonl(out_path, datas, mode="w"):# 将 jsonl 数据写入文件with open(out_path, mode, encoding='utf-8') as file:for re in datas:json_data = json.dumps(re, ensure_ascii=False)file.write(json_data + "\n")
3、 获取指定目录下所有子、孙文件列表
def get_sub_files(dir_path):result = []for root, dirs, files in os.walk(dir_path):for file in files:path = os.path.join(root, file)# print(path)if path.find("~$") > -1:print(path)result.append(path)return result