Xavier初始化方法

目标

每一层输出的方差应该尽量相等

具体推导

使用BN进行优化

请作者喝一杯咖啡☕️