My device info: NVIDIA Corporation GP100GL [Tesla P100 PCIe 16GB] x 4 Model pa

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

OOM error occurred after having 100k+ train steps about asrt_speechrecognition HOT 5 CLOSED

nl8590687 commented on May 16, 2024

OOM error occurred after having 100k+ train steps

from asrt_speechrecognition.

Comments (5)

nl8590687 commented on May 16, 2024 3

1.不会呀，我这个时每次随机读取数据的
2.我看到你batch_size设置为112，为什么要设置这么大呢？32就最多了，再大的话在训练中是没用的，跟32条数据所代表的梯度区别不大。

from asrt_speechrecognition.

songmianmian commented on May 16, 2024

您好，请问如何判断得出32条数据所代表的梯度和大于32条数据所代表的梯度区别不大呢？

from asrt_speechrecognition.

nl8590687 commented on May 16, 2024

@songmianmian
这个32是图像和计算机视觉领域的各个研究员普遍使用的标准的batch大小，而且有一些文章和课程视频有讲到为什么使用mini-batch梯度下降而不是一次使用所有数据集进行批量梯度下降，而且针对不同的领域应该使用多大的batch最好也有说到，您可以去看一下。
其实语音识别甚至连32都用不到，不过由于我使用的方法借鉴于计算机视觉，所以也建议32

from asrt_speechrecognition.

trainchou commented on May 16, 2024

我来分享一下最新进展，供大家参考：
导入batch_size为112，训练了200k steps的模型，继续用 batch_size 32 进行了一天的训练，目前训练了134k steps，loss从16左右上升到26左右，错误率从20%左右上升到30%-40%，且非常不稳定。
从上述结果看，batch_size 112 貌似比 32 效果好。

from asrt_speechrecognition.

nl8590687 commented on May 16, 2024

试试直接从头开始训练？

from asrt_speechrecognition.

Recommend Projects

OOM error occurred after having 100k+ train steps about asrt_speechrecognition HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs