PyTorch模型训练集正常收敛，但验证集准确率稳定在10%并保持不变

The Validation Accuracy of model, implemented in PyTorch, always got 10% and not converge.

*pprp* · 2022-08-07 17:07:12 发布

训练过程中遇到的一个Bug，可能是跟Torch本身有关，如下图和题目所示，经过多轮训练，训练准确率开始收敛，但是验证准确率保持在10%左右不变。

在这里插入图片描述

一般来说这表示模型本身可能存在问题，下面列出一个排查手册：

实际上最终发现，在进行验证集测试的过程中，将model.eval() 注释掉，即可正常训练，这个很可能是某些版本torch中存在的隐藏Bug。

在这里插入图片描述

在这里插入图片描述

https://github.com/apache/incubator-mxnet/issues/1968
https://blog.csdn.net/jbddygb/article/details/53365218

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌，为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐

大模型训练的过程（通俗易懂）

安装stable diffusion环境报错No module named ‘pytorch_lightning.utilities.distributed‘

TDengine 发布主流时序数据库对比分析报告，与 InfluxDB、TimescaleDB 展开全面对比测试

查看更多评论

已为社区贡献1条内容