Commit 35ce0dd0 by 前钰

Update README.md

parent a1a6a6fe
# 某闯关类手游用户流失预测
# 某闯关类手游用户流失预测
......@@ -17,10 +17,13 @@
- 数据以更原始的数据记录形式呈现,共包含 5 个文件:
- train.csv:训练集用户,包括用户 id(从 1 开始)以及对应是否为流失用户的 label(1:流失,0:留存)。这里对应了 2774~10931 的 user_id。
- dev.csv:验证集格式和训练集相同,主要为了方便离线测试与模型选择。这里对应了 10932~13589 的 user_id。
- test.csv:测试集只包含用户 id,任务就是要预测这些用户的流失概率。要预测的是 1~2773 的 user_id。
- level_seq.csv:包含用户游玩每个关卡的记录,每一条记录是对某个关卡的一次尝试。具体每列的含义如下:
- user_id :用户 id,和训练、验证、测试集中的可以匹配
- level_id :关卡 id
......@@ -30,6 +33,7 @@
- f_help :是否使用了道具、提示等额外帮助(1:使用,0:未使用)
- time :时间戳
- level_meta.csv:每个关卡的一些统计特征,可用于表示关卡。具体每列的含义如下:
- f_avg_duration :平均每次尝试花费的时间(单位 s,包含成功与失败的尝试)
- f_avg_passrate :平均通关率
......@@ -37,6 +41,7 @@
- f_avg_retrytimes :平均重试次数(第二次玩同一关算第 1 次重试)
- level_id :关卡 id,可以和 level_seq.csv 中的关卡匹配。
## Tips:
- 基本的分析和建模思路可以是:根据用户的评论内容和其他相关信息为每个用户提取特征 → 接下来结合标签(例如评论质量)构建表格式的数据集 → 然后使用不同的机器学习模型(例如集成学习方法)进行训练和测试。
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment