squared error and softmax

squared error 下,梯度是 y * (1-y) *(-2 * (t - y)) 如果y=0,那么梯度不见了

softmax error下,梯度是 y * (1-y) / (y) 如果y=0,那么梯度还蛮大

请作者喝一杯咖啡☕️