解决办法：Train Loss = nan Val Loss = nan

自己上网搜了也没找到解决办法，无奈求助师兄，帮我调了下，发现是这个参数的初始化问题，不知道为啥之前那种初始化参数的方式得到的是全为0的参数矩阵，就导致了梯度消失。果然后来改成正态初始化就正常了。最近，改了基线代码的注意力部分，加了一个可学习权重系数，没有报错，但是出现了“Train Loss = nan Val Loss = nan”的结果。

Olyvia r

463人浏览 · 2024-09-10 17:16:44

Olyvia r · 2024-09-10 17:16:44 发布

最近，改了基线代码的注意力部分，加了一个可学习权重系数，没有报错，但是出现了“Train Loss = nan Val Loss = nan”的结果。

self.Wmh = nn.Parameter(torch.FloatTensor(model_dim, model_dim)).cuda()

自己上网搜了也没找到解决办法，无奈求助师兄，帮我调了下，发现是这个参数的初始化问题，不知道为啥之前那种初始化参数的方式得到的是全为0的参数矩阵，就导致了梯度消失。果然后来改成正态初始化就正常了。

self.Wmh = nn.init.xavier_uniform_(
     [nn.Parameter(torch.FloatTensor(model_dim, model_dim).to(DEVICE))

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制