Multi-class Classification(以三分类为例)
Step 1
Step 2:Softmax计算各分类概率
softmax后所得到的 $y_i$ 满足:$0<y_i<1,\sum_iy_i=1$
why softmax
max仅仅是取最大值,而softmax则是对最大值做了强化。
指数e拉大了数据间的差距,强化大值,换言之,softmax使最大值的辨识度更高。
< softmax的二分类情况就是sigmoid >
Step 3:交叉熵估计分布准确率
将计算所得的 $\boldsymbol{y}=[y_1,y_2, y_3]^T$ 与目标结果 $\hat{\boldsymbol{y}}=[\hat{y_1},\hat{y_2},\hat{y_3}]^T$ 作交叉熵:
其中目标结果 $\hat{\boldsymbol{y}}$ 由one-hot编码表示: