随机数种子42
近期在研究决策树时遇到很多疑惑,今天说一下随机数种子42
简述决策树练习
通过sklearn库实现决策树的实战训练。
1、选择了sklearn库自带的乳腺癌数据集;
2、使用train_test_split()划分数据集,划分为训练集和测试集;
3、对测试集的标签进行格式化处理;
4、对数据进行标准化处理;
5、构建决策树;
6、将训练好的决策树模型应用到测试集,对比结果。
random_state=42
在划分数据集时,train_test_split()函数里有一个参数是random_state。
random_state(随机状态):随机数种子——其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如每次都为1,其他参数一样的情况下你得到的随机数组是一样的。当为None时,产生的随机数组也会是随机的。
很多人在使用random_state时习惯于把其设置为42,这是为什么呢?
random_state=42 让人感到疑惑,有什么别的含义吗?
The answer to universe and everything–“42”
查阅随机树种子的资料,得知“42”并不是想象的那么简单,它还充满了传奇色彩。“42”不仅仅是局限在程序里,42居然和宇宙万物的答案还有联系。
42是道格拉斯·亚当斯所作的小说《银河系漫游指南》中“生命、宇宙以及任何事情的终极答案”的答案。在故事中,一个具有高度智慧的跨维度生物种族为了找出一个能够回答终极问题的简单答案,特别造了一台超级电脑——“深思”(Deep Thought)来进行计算。“深思”花了750万年来计算和验证,最后得出了“42”这个答案。当被要求提供所谓的终极问题时,“深思”说它没办法,但是它可以设计出另外一台更强大的电脑(也就是地球这个生体电脑)来做这工作。于是当初问这些问题的种族就开始了漫长无尽的等待,让这个超级生体电脑去运行程式来找出终极问题。经过了800万年,就在结果要出来的五分钟前,地球却因为挡在预定兴建的星际间高速公路的路线,被渥罡人给毁灭,电脑没有给出最后的结果。
42因此成为一个“梗”在科学家、程序员以及极客之间流传了开来。