3.1 Sklearn的环境搭建与安装
Sklearn又称为scikit-learn,自2007年首次发布以来,scikit-learn已成为Python最受欢迎的源机器学习库之一。该库提供了机器学习涉及的4个流程中的函数接口——数据预处理、建模、模型校验评估及模型调优;在建模方面提供的机器学习算法涵盖监督学习、无监督学习及半监督学习——其中包括但不限于分类、聚类、回归、降维等算法。
Sklearn并不是作为一个独立的库使用的,其在SciPy及NumPy的基础上做了相应的扩展。其中,NumPy扩展了Python,以支持对大数组和多维矩阵的高效操作;SciPy为科学计算提供模块。
本书中所用到的语言环境是Python 3.6.x,第2章对如何搭建Python3语言环境进行了详细介绍,如果读者有疑问可以参考第2章的相关内容。Sklearn的安装十分简单,可分为在线安装和离线安装。
如果是在线安装,无论使用哪种系统,都可以在命令行界面输入如下命令:
离线安装则稍微复杂一些,可以在Python官方库下载网站https://pypi.org下载Sklearn的.whl安装包,https://pypi.org/project/scikit-learn显示了Sklearn最新版本的库,当然也可以选择历史版本。Sklearn的下载界面如图3-1所示。
图3-1 Sklearn的下载界面
图3-1 Sklearn的下载界面(续)
此外,还需要注意的是,Sklearn存在依赖库,以Sklearn-0.19.2为例,其依赖库主要包括以下几种。
·Python(2.x版本号不低于2.7,3.x版本号不低于3.3)。
·NumPy(版本号不低于1.8.2)。
·SciPy(版本号不低于0.13.3)。
需要先行安装这些依赖环境或者依赖库,然后才能继续安装Sklearn。下载安装包到本地,以安装Sklearn包为例,在本地执行如下命令:
也可以先安装Anaconda,在本地执行如下命令:
安装完成之后,进入Python控制台,输入如下命令,如果没有报错则说明安装成功: