您好,欢迎访问代理记账网站
  • 价格透明
  • 信息保密
  • 进度掌控
  • 售后无忧

泰坦尼克号案例代码流程分析

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

 

文章目录

  • 前言
  • 一、导入所需的文件包(前期准备)
  • 二、代码实现流程
    • 1.获取数据
    • 2.进行数据预处理
  • 三、对数据集进行划分
  • 四、建立特征工程
  • 五、建立模型(决策树预估器)
  • 六、模型评估分析
  • 总结

 


前言

随着人工智能的不断发展,机器学习技术越来越重要,接下来为大家介绍机器学习经典案例--泰坦尼克号的代码流程分析。


提示:以下是本篇文章正文内容,下面案例可供参考

一、导入所需的文件包(前期准备)

 

numpy:是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

pandas:是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

sklearn:Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库  。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学图书馆NumPy和SciPy。

二、代码实现流程

1.获取数据

通过pandas里的read_csv功能分别获取数据集和测试集,并用head()函数输出数据集和测试集的前五行(数据展示如图所示)。

 

2.进行数据预处理

(1)首先我们先对各特征值进行分析:

passenger_id(乘客编号):表示每一个乘客。
p_class(乘客是几等舱):乘坐高等舱的人可优先逃离,存活率相对较高,需保留。
name(乘客名字):与存活率无关,无需保留。
sex(乘客性别):“女士优先”,女性可优先逃离,对存活率有影响,需保留。
age(乘客年龄):“尊老爱幼”,老人小孩可优先逃离,对存活率有影响,需保留。
SibSp(乘客的兄弟姐妹):存在人情各种因素,对存活率有影响,需保留。
Parch(乘客的父母孩子):存在人情各种因素,对存活率有影响,需保留。
Fare(购票所用的费用):与几等舱信息重叠,无需保留。
Cabin(船舱号):随机,对存活率无影响,无需保留。
Embarked(目的地):目的地展现一个人的地位,需保留。

(2)接下来进行预处理操作:

1.整合数据集和测试集并输出结果

2.删除无需保留的特征值并补足缺失值

3.对数据集进行划分

代码一二行【】里的参数可以依据情况修改

4.建立特征工程

字典型特征提取:

5.建立模型(决策树预估器)

6.模型评估分析

进行模型评估并把预测结果输出如图所示:

 

总结

第一次写博客不是很熟练,希望一起进步。


分享:

低价透明

统一报价,无隐形消费

金牌服务

一对一专属顾问7*24小时金牌服务

信息保密

个人信息安全有保障

售后无忧

服务出问题客服经理全程跟进