Python的常用包有哪些，分别有什么作用？

【每日一问】
Python的常用包有哪些，分别有什么作用？

来自Datawhale优秀回答者：追风者
Python常用包
1、Numpy（数值运算库）
2、Scipy（科学计算库）
3、Matplotlib（基础可视化库）
4、Pandas（数据处理库）
5、Seaborn（高级可视化库）
6、Scikit-learn（流行的机器学习库）
各自作用
1、Numpy是最为流行的机器学习和数据科学包，Numpy包支持在多维数据上的数学运算，提供数字支持以及相应高效的处理函数，很多更高级的扩展库（包括Scipy、Matplotlib、Pandas等库都依赖于Numpy库）；
2、Scipy包用于科学计算，提供矩阵支持，以及矩阵相关的数值计算模块，其功能包含有最优化、线性代数、积分、插值、拟合、信号处理和图像处理以及其他科学工程中常用的计算；
3、Pandas用于管理数据集，强大、灵活的数据分析和探索工具，其带有丰富的数据处理函数，支持序列分析功能，支持灵活处理缺失数据等；
● Pandas基本的数据结构是Series和DataFrame；
● Series就是序列，类似一维数组；
● DataFrame相当于一张二维的表格，类似二维数组，它的每一列都是一个Series；
● 为了定位Series中的元素，Pandas提供了Index对象，每个Series都会带有一个对应的Index，用来标记不用的元素；
● DataFrame相当于多个带有同样Index的Series的组合（本质是Series的容器）；
4、Matplotlib库用于数据可视化，强大的数据可视化工具以及作图库，其主要用于二维绘图，也可以进行简单的三维绘图；
5、Seaborn库是基于Matplotlib的高级可视化库；
6、Sklearn库包含大量机器学习算法的实现，其提供了完善的机器学习工具箱，支持预处理、回归、分类、聚类、降维、预测和模型分析等强大的机器学习库，近乎一半的机器学习和数据科学项目使用该包。

【每日一问】
sklearn的常用包有哪些，分别有什么作用？

Datawhale优秀回答者：玲
sklearn库的结构
sklearn主要是用于机器学习，所以sklearn的模块也都是围绕机器学习算法的。sklearn因此可以分为这几个部分：Classification（分类），Regression（回归），Clustering（聚类），Dimensionality reduction（降维），Model selection（模型选择），Preprocessing（预处理）。
1.分类算法包括SVM（sklearn.svm.SVC等）、近邻（sklearn.neighbors）、随机森林（sklearn.ensemble.RandomForestClassifier）等。
2.回归算法包括SVR（sklearn.svm.SVR）、岭回归（sklearn.linear_model.Ridge）、Lasso（sklearn.linear_model.Lasso）等。
3.聚类算法包括K均值（sklearn.cluster.KMeans）、谱聚类（sklearn.cluster.SpectralClustering）等。
4.降维算法包括PCA（如sklearn.decomposition.PCA）、特征选择（sklearn.feature_selection，包括单变量特征选择等）、非负矩阵分解（如sklearn.decomposition.NMF、LatentDirichletAllocation）。
5.模型选择方法包括网格搜索（sklearn.model_selection.GridSearchCV）、交叉验证（有很多，比如sklearn.model_selection.KFold、cross_val_score）、评估指标（sklearn.model_selection.metrics，包括precision、recall、accuracy等）。
6.预处理方法包括基本的预处理方法（sklearn.preprocessing，包括标准化、类别化、离散化等）、特征抽取（sklearn.feature_extraction，包括文本特征抽取方法bag of words、tf-idf等）。
机器学习主要步骤中sklearn应用
1.数据集：sklearn.datasets中提供了很多数据集，初学时可将其作为基础数据。
2.数据预处理：sklearn.preprocessing，包括：降维、数据归一化、特征提取和特征转换（one-hot）等
3.选择模型并训练：分类、回归、聚类、集成等算法，涉及的模型主要是sklearn.linear_model、sklearn.cluster、sklearn.ensemble。
4.模型评分：sklearn.metrics，包括准确率、召回率等，算法自身也带有评分方法score。
5.模型的保存与恢复：可以用python的pickle方法（pickle.dump、pickle.load），或者sklearn.externals.joblib（joblib.dump、joblib.load）。
学习建议
不必一次看完sklearn所有模块的使用方法，这样太累！成效也不大！最好的方式是一边学习机器学习算法理论，一边实践的过程中去了解相关模块的用途，记忆会更深刻。
推荐的学习资料
基本了解：https://blog.csdn.net/u014248127/article/details/78885180
深入探索：Hands-On Machine Learning with Scikit-Learn & TensorFlow

【每日一问】
什么是正则化、如何理解正则化以及正则化的作用？

来自Datawhale优秀回答者：追风者
正则化-Regularization（也称为惩罚项或范数）就是通过对模型的参数在“数量”和“大小”方面做相应的调整，从而降低模型的复杂度，以达到避免过拟合的效果。
如何理解正则化
如果我们的目标仅仅是最小化损失函数（即经验风险最小化），那么模型的复杂度势必会影响到模型的整体性能；引入正则化（即结构风险最小化）可以理解为衡量模型的复杂度，同时结合经验风险最小化，进一步训练优化算法。
正则化的作用
正则化可以限制模型的复杂度，从而尽量避免过拟合的发生；模型之所以出现过拟合的主要原因是学习到了过多噪声，即模型过于复杂（也可以通过简化模型或增加数据集等方法尽量避免过拟合的发生）。
正则化的常见类型
（1）L1正则化
可以通过稀疏化（减少参数“数量”）来降低模型复杂度的，即可以将参数值减小到0。
（2）L2正则化
可以通过减少参数值“大小”来降低模型的复杂度，即只能将参数值不断减小，但永远不会减小为0，只能尽量接近于0。
关联概念
过拟合、正则化、经验风险最小化、结构风险最小化、损失函数、模型复杂度、范数

【每日一问】
bias和variance是什么？

来自Datawhale优秀回答者：追风者
● 解释1
bias 偏差：模型的期望（或平均）预测和正确值之间的差别；
variance 方差：模型之间的多个拟合预测之间的偏离程度。
● 解释2：
bias和variance分别从两个方面来描述了我们学习到的模型与真实模型之间的差距；
bias是 “用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异；
variance则是“不同的训练数据集训练出的模型”的输出值之间的差异。
● 解释3：
首先 Error = bias + variance
Error反映的是整个模型的准确度，bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性；
更准确地讲Error分成3个部分：Error = bias + variance + noise;