网络权重正交化

$F^n$ 的操作和矩阵的特征根有关系,如果特征根不是和1接近,那么对于RNN来说
梯度会爆炸。 因为里面包含了多个这样的操作。

然后正交矩阵的特征根都是1/-1, 所以能比较好的保持这种性质。

请作者喝一杯咖啡☕️