登录社区云,与社区用户共同成长
邀请您加入社区
一种常用的策略是按照线性缩放规则来调整学习率,即当BatchSize增加N倍时,学习率也增加N倍。另一种策略是保持权重的方差不变,此时学习率应该增加为原来的sqrt(N)倍。
一种常用的策略是按照线性缩放规则来调整学习率,即当BatchSize增加N倍时,学习率也增加N倍。 另一种策略是保持权重的方差不变,此时学习率应该增加为原来的sqrt(N)倍。
N倍
sqrt(N)倍
一站式 AI 云服务平台
更多推荐
国内低代码平台:2025 年国内主流平台盘点
5分钟搞定!MySQL/PostgreSQL 到 Elasticsearch 的实时同步
从零开始搭建个人RAG知识库:RAGFlow+DeepSeek保姆级教程!
扫一扫分享内容
所有评论(0)