数据处理的统计学习（scikit-learn教程）

发布时间：2020-12-26 04:04:51 所属栏目：大数据来源：网络整理

导读：副标题#e# 数据挖掘入门与实战 ?公众号： datadw Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib)，集成经典机器学习算法的Python模块。一、统计学习：scikit-learn中的设置与评估函数对象（1）数据集 scikit-learn 从二维数组描

这被称为KFold交叉验证

（2）交叉验证生成器

上面将数据划分为训练集和测试集的代码写起来很是沉闷乏味。scikit-learn为此自带了交叉验证生成器以生成目录列表：

from sklearn import cross_validation
k_fold = cross_validation.KFold(n=6,n_folds=3)for train_indices,test_indices in k_fold: ? ? print('Train: %s | test: %s' % (train_indices,test_indices))

接着交叉验证就可以很容易实现了：

kfold = cross_validation.KFold(len(X_digits),n_folds=3)
[svc.fit(X_digits[train],y_digits[train]).score(X_digits[test],y_digits[test]) ? ? ? ? for train,test in kfold]

为了计算一个模型的score，scikit-learn自带了一个帮助函数：

cross_validation.cross_val_score(svc,X_digits,y_digits,cv=kfold,n_jobs=-1)

n_jobs=-1意味着将计算任务分派个计算机的所有CPU.

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页

Flink CDC + Hudi 海量	不良数据会造成更严重
大规模分布式计算学习	几款日常的开源无代码