Commit f3ff6d55 by 前钰

Upload New File

parent 999eea9b
# Titanic 生存预测项目
# Titanic 生存预测项目
本项目基于经典的 [Kaggle 泰坦尼克号数据集](https://www.kaggle.com/c/titanic),利用多种机器学习模型预测乘客是否能够在事故中幸存。通过数据预处理、特征工程以及模型对比实验,找到表现最优的算法。
---
## 项目目标
* 掌握数据预处理、特征工程方法
* 比较不同机器学习模型的性能(Logistic Regression、SVM、KNN、Decision Tree、Random Forest、XGBoost)
* 评估模型效果并选择最优方案
---
## 数据预处理
* 缺失值填充(如 `Age`, `Embarked`
* 类别特征编码(如 `Sex`, `Embarked` 使用 LabelEncoder 或 OneHot)
* 特征缩放(如 `Fare`, `Age`
* 特征选择(保留对生存有影响的字段)
---
## 模型对比实验
我们使用以下模型进行训练与对比:
| 模型 | 描述 |
| ---------------------------- | ---------------------- |
| Logistic Regression | 逻辑回归,基础线模型 |
| SVM (Support Vector Machine) | 支持向量机,适用于中小规模数据 |
| KNN (K-Nearest Neighbors) | 基于距离的分类方法 |
| Decision Tree | 简单的树模型 |
| Random Forest | 集成多棵决策树,提升泛化能力 |
| XGBoost | 高性能梯度提升树模型,常用于Kaggle竞赛 |
# 作业要求:需给出对比试验指标,数据集可以是tatinic数据或者自己的数据集
例如:
实验结果对比(准确率),XGBoost的准确率为83.4%,是最优模型
| 模型 | 准确率 |
| ------------------- | ----------- |
| Logistic Regression | 80.2% |
| SVM | 78.5% |
| KNN | 77.1% |
| Decision Tree | 79.0% |
| Random Forest | 82.6% |
| XGBoost | **83.4%** |
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment