请教关于微调训练finetune

Question

<div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"

KDD2018 · Answer

我在2400+对图文定位数据集上做微调，效果很差，完全找不到图片目标和文本得对应关系，我也试着调整--fix-vit参数，但也没用，效果依旧很差。 <a class="us

drenched9 · Answer

DATA的样例就是README给出的json示例

elesun2018 · Answer

--num_train_epochs 5
这个参数配置能否减少，默认5训练时长太久了
1.5epoch-2epoch是否为best 经验值

elesun2018 · Answer

是否支持训练日志可视化？观察训练效果
A: 通过修改--report_to wandb实现观察训练效果。

我设置的--num_t

KDD2018 · Answer

有大佬只微调过视觉模块吗，最低需要多少算力？

elesun2018 · Answer

你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块？

elesun2018 · Answer

请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_prep

KDD2018 · Answer

你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块？

elesun2018 · Answer

<a target="_blank" rel="noopener noreferrer" href="https://private-user-images.githubu

elesun2018 · Answer

在标准的反向传播过程中，为了计算梯度，模型会保存所有中间层的输出（也就是激活值）。对于大型模型，这会迅速消耗大量内存。而启用gradient_checkpointing后，

elesun2018 · Answer

请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_preproce

elesun2018 · Answer

请问如何根据peft保存的模型文件转换成推理用的qwen模型

315386775 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

KDD2018 · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

KDD2018 · Answer

请问如何根据peft保存的模型文件转换成推理用的qwen模型

KDD2018 · Answer

请问这两者有什么区别 --lazy_preprocess True LazySupervisedDataset if data_args.lazy

elesun2018 · Answer

<a target="_blank" rel="noopener noreferrer" href="https://private-user-images.githubu

elesun2018 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

elesun2018 · Answer

请问finetune中modules_to_save是什么用途

elesun2018 · Answer

请问target_modules的用途，应该根据什么如何设置，谢谢

315386775 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

elesun2018 · Answer

能否解答下上述几个问题，谢谢

elesun2018 · Answer

目前问题是lora训练loss下降明显趋于稳定，但是推理时发现跟没训练几乎没区别
lora训练后数参数，如何知道正在合并到了新的整体模型中了

elesun2018 · Answer

请问model.transformer.ln_f是论文里面的adapter层（交叉注意力）吗？
finetune时adapter层是冻结的？

elesun2018 · Answer

能否帮忙解答一下，谢谢

Yan0613 · Answer

目前问题是lora训练loss下降明显趋于稳定，但是推理时发现跟没训练几乎没区别 lora训练后数参数，如何知道正在合并到了新的整体模型中了

elesun2018 · Answer

请问model.transformer.ln_f是论文里面的adapter层（交叉注意力）吗？
finetune时adapter层是冻结的？
梯度参数:ba

elesun2018 · Answer

请问model.transformer.ln_f是论文里面的adapter层（交叉注意力）吗？
finetune时adapter层是冻结的？
梯度参数:ba

elesun2018 · Answer

我用finetune.py加载Qwen-VL-Chat-hug0611
huggingface trainer.train()，loss已训练至接近0
然后

elesun2018 · Answer

能否解答一下上述几个问题，谢谢！

elesun2018 · Answer

请问train loss下降明显，而trainer.predict results中出现大部分乱码。是否正常，如何从results中提取想要的输出答案。

elesun2018 · Answer

能否解答一下上述几个问题，谢谢！

DENGBOYU-REX · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

elesun2018 · Answer

目前，用100个样本训练fientune，loss下降明显，训练中的评估指标也上来了，说明训练环境应该没有问题。

elesun2018 · Answer

现在有个奇怪的问题，fienture lora trainer loss~0 predict可以预测正确的文本结果，但是经过融合 webdemo后预测结果输出文本为通识结果

elesun2018 · Answer

现在有个奇怪的问题，fienture lora trainer loss~0 predict可以预测正确的文本结果，但是经过融合 webdemo后预测结果输出文本为通识结果

expection1985 · Answer

我也碰到该问题了，训练效果显著，推理的时候还不如原始模型了。

elesun2018 · Answer

是否应该从模型文件中的modeling_qwen.py排查，目前找不到原因呢

expection1985 · Answer

我排查到问题了，预测自己的数据使用的是model.generate，改为model.chat就ok了。

请教关于微调训练finetune about qwen-vl HOT 39 OPEN

Comments (39)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs