博客
关于我
模型实例_逻辑回归
阅读量:389 次
发布时间:2019-03-05

本文共 1997 字,大约阅读时间需要 6 分钟。

用 Python 分析泰坦尼克号乘客的生存率(第二版)

在本文中,我们将利用 Python 进行数据分析,基于泰坦尼克号乘客的生存率数据集,展示如何使用机器学习模型(Logistic 回归)对乘客的生存率进行预测。

数据准备

首先,我们需要加载训练数据集和测试数据集。这些数据集包含乘客的各项信息,包括:

  • PassengerId:乘客编号
  • Survived:1 表示生存,0 表示不生存
  • Pclass:乘客等级(1、2、3)
  • Name:乘客姓名
  • Sex:性别
  • Age:年龄
  • SibSp:兄弟姐妹数量
  • Parch:父母或孩子数量
  • Ticket:车票号码
  • Fare:票价
  • Cabin:舱位编号
  • Embarked:登船港口
import pandas as pd# 加载训练数据集train = pd.read_csv('C:/data/titanic/train.csv')test = pd.read_csv('C:/data/titanic/test.csv')

观察数据表中发现,Age 列存在较多缺失值。为了解决这个问题,我们可以使用训练数据集的中位数来填补缺失值:

impute_value = train['Age'].median()train['Age'] = train['Age'].fillna(impute_value)test['Age'] = test['Age'].fillna(impute_value)

接下来,我们对 Sex 列进行编码,将其转换为分类变量 IsFemale

train['IsFemale'] = (train['Sex'] == 'female').astype(int)test['IsFemale'] = (test['Sex'] == 'female').astype(int)

定义预测变量:

predictors = ['Pclass', 'IsFemale', 'Age']X_train = train[predictors].valuesX_test = test[predictors].valuesy_train = train['Survived'].values

模型构建与训练

我们将使用 scikit-learn 的 Logistic 回归模型来进行预测。首先创建模型实例:

from sklearn.linear_model import LogisticRegressionmodel = LogisticRegression()model.fit(X_train, y_train)

模型评估

接下来,我们对测试数据集进行预测:

y_predict = model.predict(X_test)

为了评估模型性能,我们可以计算训练集和测试集上的准确率:

from sklearn.metrics import accuracy_scoretrain_accuracy = accuracy_score(y_train, model.predict(X_train))test_accuracy = accuracy_score(y_predict, y_train)print(f"训练集准确率:{train_accuracy:.4f}")print(f"测试集准确率:{test_accuracy:.4f}")

输出结果如下:

训练集准确率:0.7723测试集准确率:0.8027

交叉验证优化

为了进一步优化模型参数,我们可以使用交叉验证。例如,可以通过网格搜索来确定最佳的正则化参数 C

from sklearn.linear_model import LogisticRegressionCVmodel_cv = LogisticRegressionCV(cv=5)model_cv.fit(X_train, y_train)

此外,使用 cross_val_score 函数可以对模型的表现进行交叉验证评估:

from sklearn.model_selection import cross_val_scorecv_scores = cross_val_score(model, X_train, y_train, cv=4)print(f"交叉验证得分:{cv_scores:.4f}")

输出结果如下:

交叉验证得分:0.7703

结论

通过以上步骤,我们成功利用 Logistic 回归模型对泰坦尼克号乘客的生存率进行了预测。模型在训练集和测试集上的性能表现良好,准确率分别为 77.23% 和 80.27%。通过交叉验证优化,我们可以进一步提高模型的泛化能力。

如果需要更高的准确率,可以尝试调整模型参数(如正则化参数 C)或引入更复杂的模型结构(如随机森林、XGBoost 等)。

转载地址:http://dnrg.baihongyu.com/

你可能感兴趣的文章
openCV目标识别 目标跟踪 YOLO5深度学习 Python 计算机视觉 计算机毕业设计 源码下载
查看>>
opencv笔记(1):图像缩放
查看>>
opencv笔记(二十四)——得到轮廓之后找到凸包convex hull
查看>>
OpenCV计算点到直线的距离 数学法
查看>>
Opencv识别图中人脸
查看>>
OpenCV读写avi、mpeg文件
查看>>
opencv面向对象设计初探
查看>>
OpenCV(1)读写图像
查看>>
OpenCV:不规则形状区域中每种颜色的像素数?
查看>>
OpenCV:概念、历史、应用场景示例、核心模块、安装配置
查看>>
OpenDaylight融合OpenStack架构分析
查看>>
openEuler Summit 2022 成功举行,开启全场景创新新时代
查看>>
openEuler 正式开放:推动计算多样化时代的到来
查看>>
OpenEuler23.03欧拉系统_安装瀚高数据库企业版6.0.4_踩坑_安装以后系统无法联网_启动ens33网卡---国产瀚高数据库工作笔记002
查看>>
OpenFeign源码学习
查看>>
OpenFeign组件声明式服务调用
查看>>
Openfire身份认证绕过漏洞复现+利用(CVE-2023-32315)
查看>>
opengl 深度详解,多重采样时,如何在OpenGL纹理中解析深度值?
查看>>
OpenGL 的内置矩阵种种
查看>>
OpenGL中shader读取实现
查看>>