数据挖掘知识

免费体验
当前位置: 首页 > 知识库 > 数据挖掘知识 >

分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大

分享到:
时间:2016-06-19 12:53来源:谷歌推广seo网络知识 作者:谷歌优化怎么做
中国统计网(www.itongji.cn),是由大数据资深从业人员创办的大数据门户网站

分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大



1、实验流程


让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救 ?



2、数据准备


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片1


原始数据


将数据导入MaxCompute,


PassengerId:用户的ID号


Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)


Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower


Sex:乘客的性别,“1”表示男,“0”表示女


Age:乘客的年龄


sibsp:乘客在船上的配偶数量或兄弟姐妹数量


parch:乘客在船上的父母或子女数量


fare:乘客的船费


cabin:是否住在独立的房间,“1”表示是,“0”为否


embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远



3、搭建实验流程


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片2

实验流程


1) 首先将数据集按照 7 : 3 进行拆分,亿推英文推广,一部分作为 titanic 训练集,一部分作为预测集。


2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。


3) 训练数据通过逻辑回归 LR 算法生成模型。


4) 对预测集进行预测。


5) 通过 ROC 曲线和混淆矩阵来对结果进行评估。



4、评估结果


混淆矩阵结果


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片3

混淆矩阵结果分析


说明:


1. 正确率:预测正确的正例个数占预测为正例的比例,即 P=TP/(TP+FP);


2. 召回率: 预测正确的正例个数占实际正例的比例,即 R=TP/(TP+FN);


3. F1 指标: P 和 R 的中权调和平均,即 F1=2PR/(P+R) 。当 F1 较高时说明实验方法比较理想;


ROC 曲线评估结果


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片4


ROC 曲线结果分析


说明:


1. TPR=TP/(TP+FN);


2. FPR=FP/(FP+TN);


3. ROC 曲线:


① Y 轴: TPR; X 轴: FPR ;

② (0,1):FRP=0,TPR=1 。 FN=0,FP=0 ,将所有样本都正确分类;

③ (1,0): 即: FPR=1,TPR=0, 预测结果相反,正变负,负变正;

④ (0,0):FRP=TPR=0 ,将所有样本划分为负样本;

⑤ (1,1): 所有样本划分为正样本;

⑥ ROC 曲线越接近左上角,该分类器越好;


4. y=x ,随机猜测,一半正样本,一半负样本;


5. AUC:ROC 曲线下面积,应该介于 0.5~1 之间。 AUC 越大,分类器越好;



5、模型分析


逻辑回归生成模型:


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片5


模型分析


根据 Logical regression 的特性, model 输出的是每个特征的线性组合。 3.199 为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出 age 、 sex 和 pclass 对于结果影响最大。


根据 sigmoid 函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论, age 、 pclass 和 sex 的值越小,目标值越大。


也就是有钱人家的女人和小孩有更大的获救概率。


通过真实数据比对也印证了我们的分析结果:


分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大-图片6


来源:大数据文摘


(整理:英文推广TuiGuang123.com)
分享到:
------分隔线----------------------------
购买咨询 | 联系我们 | 产品报价 | 付款方式
网站地图 Copyright·深圳市亿推信息技术有限公司 版权所有 粤ICP备13042246号