一、处理流程 前置步骤: 标注数据得到数据集数据清理:将特殊字符、特殊格式、无效字符去除 正式步骤: 1、分词或分字:英文一般都分词,中文有分词也有分字。分词还是分字取决于你模型的embedding。 2、将字或词编辑ID 3、embedding:将离散的数据(如文字、类别标签)转换成连续的向量表示