5.6.3 项目二：客户流失预测（分类问题）

客户流失预测项目流程图

项目定位

客户流失预测是最经典的商业 ML 应用之一。本项目重点练习：不平衡数据处理、业务指标理解、从模型结果中提取业务洞察。

项目概览

信息	说明
任务类型	二分类（流失/留存）
核心挑战	数据不平衡（流失客户远少于留存）
评估指标	F1、AUC、召回率
涉及技能	不平衡处理、Pipeline、业务分析

读代码前先认识几个关键术语

Recall（召回率）：真正会流失的客户里，我们抓住了多少。业务上如果特别怕漏掉流失客户，就要重点看它。
Precision（精确率）：被模型标成高风险的客户里，真正会流失的占多少。保留动作成本很高时，它很重要。
F1：精确率和召回率的调和平均数。它适合做一个平衡指标，但会隐藏具体业务取舍。
ROC（Receiver Operating Characteristic，受试者工作特征曲线）：展示阈值变化时，召回率和误报率如何一起变化。
AUC（Area Under the Curve，曲线下面积）：把 ROC 曲线压缩成一个数字。AUC 越高，说明模型越能把流失客户排在留存客户前面。
SMOTE（Synthetic Minority Over-sampling Technique，合成少数类过采样）：为少数类人工合成新样本。它能缓解不平衡，但必须只在训练集或交叉验证训练折里使用。
class_weight（类别权重）：不合成新样本，而是让模型更重视少数类错误。
Threshold（阈值）：把“流失概率”转成“是否流失”的分界线。降低阈值通常会提高召回率，但也会增加误报。

先说一个很重要的学习预期

这题很容易让新人一上来就掉进“模型比较”里：

逻辑回归
随机森林
SMOTE
AUC

但更适合第一遍先练会的，其实不是谁分数更高，而是：

面对不平衡分类问题时，怎样把业务代价、指标选择、阈值决策和模型结果真正串起来。

只要这条线先立住，这题才会像真实项目，而不是“再做一道分类题”。

先建立一张地图

这题最有价值的地方，不是“做一个二分类器”，而是第一次真正面对：

数据不平衡
阈值选择
业务代价不同

所以这题真正练的是“怎么做分类决策”，不是单纯“怎么跑分类模型”。

这题你真正要练什么

这个项目的核心不是“把分类器跑起来”，而是练习：

不平衡数据时为什么不能只看准确率
怎样在召回率、精确率和业务代价之间取舍
怎样把模型结果翻译成业务洞察

这题第一版最该先讲清什么

第一次做这题时，最该先说明的不是模型名字，而是：

流失客户占比多少
为什么不能只看准确率
如果业务更怕漏掉将流失客户，应该偏向哪个指标

把这三件事说清楚，后面所有模型和阈值选择才有意义。

一个更适合新人的类比

你可以先把这题想成：

在客户真的离开之前，尽早拉一张“高风险名单”

这张名单的价值不在于：

每个人都判断得绝对完美

而在于：

你能不能在可接受的误报成本下，尽量少漏掉真正会流失的人

这就是为什么这题从一开始就不能只盯着准确率。

第一次做这题时，最稳的默认顺序

如果你第一次做客户流失预测，建议按这个顺序：

先把业务目标说清楚
先看类别分布
先做原始 baseline
再做 class_weight
最后再试 SMOTE
再决定阈值应该往召回率还是精确率偏

这样你会更清楚每一步提升到底来自：

模型
采样
还是阈值策略

Step 1：模拟数据

import pandas as pd
import numpy as np
from sklearn.datasets import make_classification

# 生成不平衡的客户数据
X, y = make_classification(
    n_samples=5000, n_features=15, n_informative=8,
    n_redundant=3, weights=[0.85, 0.15],  # 85% 留存, 15% 流失
    random_state=42
)

feature_names = ['月消费', '通话时长', '流量使用', '客服通话次数', '合同时长',
                 '账单争议', '套餐等级', '家庭成员数', '在网时长', '上月投诉',
                 '流量超限次数', '国际漫游', '增值服务数', '账户余额', '设备更换']

df = pd.DataFrame(X, columns=feature_names)
df['流失'] = y

print(f"数据形状: {df.shape}")
print(f"流失比例: {df['流失'].mean():.1%}")
print(f"流失客户: {df['流失'].sum()}, 留存客户: {(1-df['流失']).sum():.0f}")

Step 2：不平衡数据处理

客户流失不平衡与阈值图

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score
import matplotlib.pyplot as plt

X = df.drop('流失', axis=1)
y = df['流失']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 方法1: 类别权重
rf_weighted = RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)
rf_weighted.fit(X_train, y_train)
y_pred = rf_weighted.predict(X_test)

print("带类别权重的随机森林:")
print(classification_report(y_test, y_pred, target_names=['留存', '流失']))
print(f"AUC: {roc_auc_score(y_test, rf_weighted.predict_proba(X_test)[:,1]):.4f}")

Step 2.1 为什么不要一开始就上 SMOTE

更稳的顺序通常是：

先做原始 baseline
再试 class_weight
最后再试 SMOTE

因为这样你才能分清：

提升是来自模型本身
还是来自采样策略
还是来自阈值调整

SMOTE 过采样

# python -m pip install --upgrade imbalanced-learn
try:
    from imblearn.over_sampling import SMOTE
    from imblearn.pipeline import Pipeline as ImbPipeline

    smote_pipe = ImbPipeline([
        ('smote', SMOTE(random_state=42)),
        ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)),
    ])
    smote_pipe.fit(X_train, y_train)
    y_pred_smote = smote_pipe.predict(X_test)

    print("\nSMOTE + 随机森林:")
    print(classification_report(y_test, y_pred_smote, target_names=['留存', '流失']))
except ImportError:
    print("请安装 imbalanced-learn: python -m pip install --upgrade imbalanced-learn")

Step 3：特征重要性与业务洞察

# 特征重要性
importance = rf_weighted.feature_importances_
sorted_idx = np.argsort(importance)

plt.figure(figsize=(8, 8))
plt.barh(range(len(sorted_idx)), importance[sorted_idx], color='coral')
plt.yticks(range(len(sorted_idx)), np.array(feature_names)[sorted_idx])
plt.xlabel('特征重要性')
plt.title('客户流失预测——特征重要性')
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

# 业务建议
print("\n业务洞察:")
top3 = np.array(feature_names)[np.argsort(importance)[-3:]]
for i, feat in enumerate(reversed(top3), 1):
    print(f"  {i}. {feat} 对流失预测最重要")

Step 4：ROC 对比

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

models = {
    '逻辑回归': make_pipeline(StandardScaler(), LogisticRegression(class_weight='balanced', max_iter=1000)),
    '随机森林': RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42),
}

plt.figure(figsize=(8, 6))
for name, model in models.items():
    model.fit(X_train, y_train)
    proba = model.predict_proba(X_test)[:, 1]
    fpr, tpr, _ = roc_curve(y_test, proba)
    auc = roc_auc_score(y_test, proba)
    plt.plot(fpr, tpr, linewidth=2, label=f'{name} (AUC={auc:.4f})')

plt.plot([0, 1], [0, 1], 'k--', alpha=0.5)
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.title('客户流失预测 ROC 对比')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

Step 4.1 这一步最值得再补什么

如果想把这题做得更像真实业务项目，最值得补的是：

一张混淆矩阵
一张阈值 vs Precision / Recall / F1 曲线
一段“如果召回率优先，我会把阈值调到哪里”的解释

因为很多真实留存项目，重点不是默认阈值 0.5 下谁分数高，而是：

在可接受的误报成本内，尽量多抓高风险客户

项目交付时最好补上的内容

一张类别分布图
一张混淆矩阵
一张 ROC 曲线
一段“如果目标是尽量召回流失客户，我会怎么调阈值”的说明

一个更像真实项目的复盘顺序

你可以用下面这个顺序来写项目复盘：

数据分布和业务目标
baseline 模型结果
不平衡处理后的变化
指标权衡和阈值调整
特征重要性和业务建议
下一步如果上线，应该怎么监控

如果继续把这个项目往上做，最值得补什么

更值得优先补的通常是：

阈值调优页
误判客户案例分析
不同业务目标下的指标切换说明

这样项目会从“一个分类任务”变成“一个更像真实业务决策系统”的作品。

做成作品集时，最值得展示什么

类别分布和任务目标
baseline 与改进版的对比
ROC 或 PR 曲线
一张阈值解释图
一段可执行的客户运营建议

项目检查清单

分析数据不平衡程度
尝试至少 2 种不平衡处理方法（类别权重、SMOTE）
用 F1 和 AUC 评估（不只看准确率）
分析特征重要性，给出业务建议
ROC 曲线多模型对比

版本路线建议

版本	目标	交付重点
基础版	跑通最小闭环	能输入、能处理、能输出，并保留一组示例
标准版	形成可展示项目	增加配置、日志、错误处理、README 和截图
挑战版	接近作品集质量	增加评估、对比实验、失败样本分析和下一步路线

建议先完成基础版，不要一开始就追求大而全。每提升一个版本，都要把“新增了什么能力、怎么验证、还有什么问题”写进 README。

项目概览​

读代码前先认识几个关键术语​

先说一个很重要的学习预期​

先建立一张地图​

这题你真正要练什么​

这题第一版最该先讲清什么​

一个更适合新人的类比​

推荐推进顺序​

第一次做这题时，最稳的默认顺序​

Step 1：模拟数据​

Step 2：不平衡数据处理​

Step 2.1 为什么不要一开始就上 SMOTE​

SMOTE 过采样​

Step 3：特征重要性与业务洞察​

Step 4：ROC 对比​

Step 4.1 这一步最值得再补什么​

项目交付时最好补上的内容​

一个更像真实项目的复盘顺序​

如果继续把这个项目往上做，最值得补什么​

做成作品集时，最值得展示什么​

项目检查清单​

版本路线建议​