0%

Error来源

Error来源

  1. bias - 距靶心距离(准)
  2. variance - 分散程度(稳)
Estimator
  • 均值: (上标表示第几个变量)
  • 均值估计:
  • 方差:
  • 方差估计:
variance大 - 过拟合
  1. 简单模型受训练数据影响小,Variance小复杂模型Variance大

  2. 方法1:增加数据集(效率低,但并不总是practical)- 不会伤害bias

  3. 方法2:对损失函数进行正则化(Regularization),平滑曲线 - 会伤害bias
bias大 - 欠拟合
  1. 简单模型bias大,复杂模型bias小。<泰勒展开>,模型越复杂,function set越大
  2. 说明model本身设计得就不好/过于简单,导致没有包含目标模型,此时收集更多数据是没有用的,需要重新设计model

var增大,bias减小,需要找到平衡点,使得error最小

Model Selection
  • Training Set:训练模型

  • Validation Set:选模型

  • N-fold Cross Validation(N折交叉验证)

    Training Set分成三份,分别作为(train, train, val) (train, val, train) (val, train, train),模型分别训练三次得到三个error取平均值,选最低error的模型再在整个Training Set上训练一次,得到的结果应用于Testing Set

    不要根据Testing Set调整参数!