sklearn数据集
sklearn有四部分数据。其中sklearn的数据集有两部分真实的数据,一部分嵌入到了sklearn库中,即安装好sklearn后就自带了一部分数据,这些数据的规模比较小称为small toy datasets ,还有一部分数据是需要在网上下载的,sklearn提供了下载的api接口,这些数据规模比较大。其中获取内嵌的数据的api接口统称为The dataset loaders,获取需要下载的数据的api统称为The dataset fetchers,并且这些api都是函数,目前我还没有发现sklearn中的数据用类来表示的api。第三部分数据是人造的数据集,它可以调用接口来生成。第四部分数据归为其他数据
真实数据集
官网中描述了有哪些数据,部分如下图(可以在官网的User Guide中找到)。
以鸢尾花数据为例,它的api是load_iris(),它的介绍信息可以在sklearn官网中的User Guide中找到,部分介绍如下图。