【学习率】

news/2024/11/14 19:25:10 标签: 学习

5e-43e-5 都是科学计数法表示的数值,其数值大小差异体现在梯度更新的幅度上。在深度学习中,学习率决定了参数每一步更新的大小,学习率越大,参数更新幅度越大,反之则越小。

具体数值比较

科学计数法表示法:aeb 表示 ( a \times 10^{b} )。

  • 5e-4 相当于 ( 5 \times 10^{-4} = 0.0005 )
  • 3e-5 相当于 ( 3 \times 10^{-5} = 0.00003 )

显然,0.0005 要比 0.00003 大得多,因此它的梯度更新会更快,而 3e-5 的步长相对较小,更新更缓慢。

在模型训练中的实际影响

假设我们有一个简单的梯度更新公式:

[
\text{new_weight} = \text{old_weight} - \text{learning_rate} \times \text{gradient}
]

5e-43e-5学习率进行对比:

  • 举例:假设 gradient = 0.02,当前 weight = 1.0

    • 使用 5e-4 学习率时:
      [
      \text{new_weight} = 1.0 - (0.0005 \times 0.02) = 1.0 - 0.00001 = 0.99999
      ]

    • 使用 3e-5 学习率时:
      [
      \text{new_weight} = 1.0 - (0.00003 \times 0.02) = 1.0 - 0.0000006 = 0.9999994
      ]

可以看出,5e-4 的更新幅度(0.00001)比 3e-5 的更新幅度(0.0000006)大很多。这意味着在使用 5e-4 学习率时,权重在每次更新时变化更快,而 3e-5 则变化较慢。

实际应用中的影响

  • 学习率(如 5e-4

    • 更新速度快,但容易在训练过程中造成梯度震荡,甚至发散。
    • 如果模型参数调整过快,可能导致过拟合,特别是在预训练模型上容易破坏已有的预训练权重。
  • 学习率(如 3e-5

    • 更新速度慢,能保证训练过程更加稳定,避免梯度波动太大。
    • 能帮助模型在微调阶段逐步接近最优解,尤其适合预训练模型的微调,因为这种情况下我们希望在原有的权重基础上小幅度调整。

总结

在预训练模型微调中,5e-4 学习率过大,适合从头训练(随机初始化权重的情况);3e-5 更适合预训练模型微调,因为它可以稳定更新权重,不容易破坏已有的预训练特征。


http://www.niftyadmin.cn/n/5752327.html

相关文章

Java 8 新特性详细教程

Java 8 新特性详细教程 Java 8 是 Java 语言中的一个重要版本,它引入了许多革命性的功能,比如 Lambda 表达式、Stream API、Optional 类和全新的日期时间 API 等。这些功能显著提升了 Java 开发效率和代码的可读性。本教程将对这些新特性进行深入讲解,并提供丰富的示例代码…

【Qt】在 Qt Creator 中使用图片资源方法(含素材网站推荐)

先准备图片资源 推荐一个好用的图标素材网站,有很多免费资源。 Ic, fluent, animal, dog, filled icon - Free download 其他辅助工具,类似 AI 抠图去背景,实测效果还行,但是非免费。 美图秀秀-在线一键抠图,无需P…

群控系统服务端开发模式-应用开发-前端个人信息功能

个人信息功能我把他分为了3部分:第一部分是展示登录者信息;第二步就是登录者登录退出信息;第三部分就是修改个人资料。 一、展示登录者信息 1、优先添加固定路由 在根目录下src文件夹下route文件夹下index.js文件中,添加如下代码 …

C# IEnumerator,IEnumerable ,Iterator

IEnumerator 枚举器接口 在C#语言中,大部分以“I”字母开头命名的都是接口,所以情理之中,IEnumerator也是一个接口。 对于面向对象语言来说,接口就是一份“协议”,它定义了一组方法、属性和事件的契约,任…

学习Three.js:使用导入的模型生成粒子效果

学习Three.js:使用导入的模型生成粒子效果 Three.js是一个基于WebGL的JavaScript库,它使得在网页上创建和显示3D图形变得简单而高效。在Three.js中,你可以创建各种3D对象,如立方体、球体、平面等,还可以导入外部的3D模…

【CSS】absolute定位的默认位置

position: absolute; 属性会使元素脱离正常的文档流,并相对于最近的非 static 定位祖先元素进行定位。如果没有这样的祖先元素,则相对于初始包含块(通常是视口)进行定位。 但是当top和left没有指定具体值时,元素的在上…

LeetCode【0057】插入区间

本文目录 1 中文题目2 求解方法:基于逻辑2.1 方法思路2.2 Python代码2.3 复杂度分析 3 题目总结 1 中文题目 给定一个 无重叠的 ,按照区间起始端点排序的区间列表 i n t e r v a l s intervals intervals,其中 i n t e r v a l s [ i ] […

HBase压测 ycsb

## ycsb 导入数据 rootXX.14.40.1971、对portrait压测 ansible hadoop -i hosts_hbase_portrait_20230730.txt -m shell -a "hostname && chdir/data/workspace/ycsb-0.17.0 nohup bin/ycsb load hbase20 -P workloads/workload_insert -cp /usr/local/fqlhadoop/…