本文最后更新于:2024年5月7日 下午
我们经常会用到预训练模型,并在预训练模型的基础上添加额外层。训练时先将预训练层参数固定,只训练额外添加的部分。本文记录 Pytorch 相关操作。
固定参数
- 固定参数即网络训练时不改变该部分的权重,而更新指定层的参数
- pytorch 固定参数主要通过两个设置完成
-
将
tensor
的requires_grad
属性设置为False
仅将该属性设置为 False 网络仍会训练并修改参数,还需要堆 optimizer 的输入参数进行过滤
-
在
optimizer
中过滤需要更新的变量
requires_grad
- 初始化变量时可以设置该值为 False
1 |
|
- 也可以手动设置模型中的层
1 |
|
optimizer
- 在 optimizer 的变量位置可以过滤需要更新的变量,得到迭代器:
1 |
|
操作示例
只训练部分层
1 |
|
- 这样就将 for 循环以上的参数固定, 只训练下面的参数。
- 注意需要在 optimizer 中添加上这样的一句话
filter(lambda p: p.requires_grad, model.parameters()
。
1 |
|
固定部分层参数
1 |
|
检查部分参数是否固定
1 |
|
查看可训练参数
1 |
|
查看网络总参数
1 |
|
不同层设置不同学习率
1 |
|
这意味着 model.base 的参数将使用 1e-2 的默认学习率,model.classifier 的参数将使用 1e-3 的学习率,所有参数将使用 0.9 的动量。
PyTorch更新部分网络,其他不更新
- 假设有模型A和模型B,我们需要将A的输出作为B的输入,但训练时我们只训练模型B.那么可以这样做:
1 |
|
- 它可以使两个计算图的梯度传递断开,从而实现我们所需的功能。
参考资料
- https://www.jianshu.com/p/fcafcfb3d887
- https://www.cnblogs.com/jiangkejie/p/11199847.html
- http://www.3qphp.com/python/pybase/4382.html
“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”
微信支付
支付宝支付
Pytorch 固定部分参数训练
https://www.zywvvd.com/notes/study/deep-learning/pytorch/pytorch-update-some-para/pytorch-update-some-para/