pytorch zero_grad

如果不置零,Variable 的梯度在每次 backward 的时候都会累加。

1
2
3
4
optimizer.zero_grad()
loss = criterion(outputs, targets)
loss.backward()
optimizer.step()

请作者喝一杯咖啡☕️