吃瓜Task01-绪论&模型评估选择

1. 绪论

1.2 术语

所学的hypothesis,不一定能很好的反应训练集的ground-truth;而训练集的ground-truth也未必能很好代表真实数据的分布。

  • clustering


    通过聚类来挖掘数据集潜在特征

  • 基本假设:希望样本是**独立同分布,i.i.d.**的。

1.3 假设空间

  • induction 特殊到一般。但对于inductive learning,归纳的“结论”暗含在模型中,即黑箱化。

此外,联想到自己做GNN中的inductive learning vs transductive learning概念差异,补充如下:

Induction is reasoning from observed training cases to general rules, which are then applied to the test cases.
Transduction is reasoning from observed, specific (training) cases to specific (test) cases.

在实践中,inductive learning测试时的样本不包含在训练样本中,而transductive learning在训练过程中已经见过测试样本,只是训练时缺少测试样本的标签。

Ref: https://towardsdatascience.com/inductive-vs-transductive-learning-e608e786f7d

2 模型评估与选择

  • overfit: 模型表达力过强,学习了训练集中非普遍的特征;
  • underfit:模型表达力过,无法充分总结训练集中的一般特征。

2.2 评估方法

如何合理划分dataset。

  1. hold-out


    划分时,样本通常采用 分层采样 stratified sampling,来保证训练集的类别样本比例与整体相近。

  2. cross validation
    等分k个子集,每次k-1训练,1测试。由于划分的随机性,为评估结果可靠,用k times k fold cross validation,即做k*k次实验。

  3. bootstrapping


    适用于数据集较小, train/test难划分时。但改变了原始数据集的分布。(好像我从来没用过它)

2.3 性能度量

  • 精度:正确分类样本 占 样本总数比例;
  • 查准率 Precision vs 查全率 Recall

常绘制为PR曲线(记录不同thresholds时的P-R值绘制)

其中,recall=0时,大家默认将precision设为1.
image

macro-F1和micro-F1的主要区别在于它们对多个类的F1得分的汇总方式。macro-F1对每个类都一视同仁,而micro-F1则对大类给予更多的权重。这两种方法的选择取决于手头问题的具体要求。

  • ROC&AUC
    ROC以TPR为纵轴,FPR为横轴,注意与PR曲线区分。
    image
    AUC为ROC曲线下面积,即Area Under ROC Curve。

ROC绘制、AUC计算举例见:

浙ICP备19012682号