GithubHelp home page GithubHelp logo

Comments (39)

KDD2018 avatar KDD2018 commented on August 16, 2024 3

我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 @elesun2018 楼上微调效果怎么样?

from qwen-vl.

drenched9 avatar drenched9 commented on August 16, 2024

DATA的样例就是README给出的json示例

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

--num_train_epochs 5
这个参数配置能否减少,默认5训练时长太久了
1.5epoch-2epoch是否为best 经验值

另,是否支持训练日志可视化?观察训练效果

Qwen-VL/finetune/finetune_lora_single_gpu.sh中的--fix_vit True 的作用,谢谢

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

是否支持训练日志可视化?观察训练效果
A: 通过修改--report_to wandb实现观察训练效果。

我设置的--num_train_epochs 1.5 训练时长比较久目前没训练完成。

训练的label我使用的格式如下:狗[0.836,0.48,1.0,0.66],没有严格按照README给出的json示例。

另,训练过程中能否进行评估。谢谢!

from qwen-vl.

KDD2018 avatar KDD2018 commented on August 16, 2024

有大佬只微调过视觉模块吗,最低需要多少算力?

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块?
image
这段代码没搞懂,不使用lora,fixvit为true,冻结vit?
使用lora占用资源较多,冻结vit,占用的资源不再那麽多?

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset
谢谢!

from qwen-vl.

KDD2018 avatar KDD2018 commented on August 16, 2024

你是说model.transformer.visual.requires_grad_(True)来实现微调过视觉模块? image 这段代码没搞懂,不使用lora,fixvit为true,冻结vit? 使用lora占用资源较多,冻结vit,占用的资源不再那麽多?

这个似乎是全量微调的时候通过设置--fix_vit参数确定visual是否微调。通过lora微调,不是通过target_modules参数吗,就是对应finetune.py中的类LoraArguments的lora_target_modules。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

image
请问gradient_checkpointing是何用途,谢谢

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

在标准的反向传播过程中,为了计算梯度,模型会保存所有中间层的输出(也就是激活值)。对于大型模型,这会迅速消耗大量内存。而启用gradient_checkpointing后,模型不会保存所有这些中间激活值。相反,它会在反向传播过程中重新计算部分前向传播步骤,仅在需要计算梯度的那一刻才计算相应的激活值。这样,尽管会增加一些计算开销(因为某些前向过程需要执行两次),但可以大幅度减少内存使用量。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问这两者有什么区别 --lazy_preprocess True
LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset
谢谢!

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问如何根据peft保存的模型文件转换成推理用的qwen模型
image
有没有相应的代码

from qwen-vl.

315386775 avatar 315386775 commented on August 16, 2024

@KDD2018 我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 后来找到问题了吗?

from qwen-vl.

KDD2018 avatar KDD2018 commented on August 16, 2024

@KDD2018 我在2400+对图文定位数据集上做微调,效果很差,完全找不到图片目标和文本得对应关系,我也试着调整--fix-vit参数,但也没用,效果依旧很差。 后来找到问题了吗?

没有,微调之后,整体的聊天套路是学到了,但是目标和标签的关系完全没学到。我猜测是因为没有微调视觉模块,因为我看源码中LoraArguments的lora_target_modules参数指定的都是LM中的模块。仅仅是猜测,也请大佬们指点迷津。

from qwen-vl.

KDD2018 avatar KDD2018 commented on August 16, 2024

请问如何根据peft保存的模型文件转换成推理用的qwen模型 image 有没有相应的代码

可以参考README中的微调部分,有相关代码

from qwen-vl.

KDD2018 avatar KDD2018 commented on August 16, 2024

请问这两者有什么区别 --lazy_preprocess True LazySupervisedDataset if data_args.lazy_preprocess else SupervisedDataset 谢谢!

你是指LazySupervisedDataset和SupervisedDataset的区别吧, LazySupervisedDataset是获取到单个样本之后才进行preprocess。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

image
按照上图进行lora merge_save生成结果
image
与huggingface下载的模型文件不太一致
image
请问tokenization_qwen.py tokenizer_config.json如何获取,什么作用,影响推理使用吗
谢谢!

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

@KDD2018
我在4W图文对,带定位box数据集上做lora微调。
效果也不行,跟没有训练没什么差异。但是训练日志还算可以。
wandb trainloss下降比较明显!
--num_train_epochs 1.5,准备增大5-10epoch看下效果。
我Q 294813364

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问finetune中modules_to_save是什么用途
image
wte和lm head怎么设置
base_model.model.transformer.wte.modules_to_save
base_model.model.lm_head.modules_to_save

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问target_modules的用途,应该根据什么如何设置,谢谢
image
这几个模块
"w1",
"attn.c_proj",
"c_attn",
"w2"

from qwen-vl.

315386775 avatar 315386775 commented on August 16, 2024

@KDD2018 请问对Qwen-VL-Chat微调所需要的”图文对“数据量大概需要多少?目前进行lora微调效果不大 #300 我看其中提到,具体怎么对齐,有知道的吗,可以加Q交流:315386775

在进行lora微调后,进行测试,发现性能确实得到显著提升(大约10个点),原因在于可能之前的微调Prompt和测试Prompt没有对齐,将他们对齐后进行测试,性能的确是提升了。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

能否解答下上述几个问题,谢谢

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

目前问题是lora训练loss下降明显趋于稳定,但是推理时发现跟没训练几乎没区别
lora训练后数参数,如何知道正在合并到了新的整体模型中了
image
image
谢谢

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

能否帮忙解答一下,谢谢

from qwen-vl.

Yan0613 avatar Yan0613 commented on August 16, 2024

目前问题是lora训练loss下降明显趋于稳定,但是推理时发现跟没训练几乎没区别 lora训练后数参数,如何知道正在合并到了新的整体模型中了 image image 谢谢

the same issue

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?
梯度参数:base_model.model.transformer.ln_f.weight: torch.Size([4096]) False
这个参数需要打开 True,lora训练吗
image
如何跟论文对应上,参数量不对,to fix 256

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问model.transformer.ln_f是论文里面的adapter层(交叉注意力)吗?
finetune时adapter层是冻结的?
梯度参数:base_model.model.transformer.ln_f.weight: torch.Size([4096]) False
这个参数需要打开 True,lora训练吗
image
如何跟论文对应上,参数量不对,to fix 256

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

我用finetune.py加载Qwen-VL-Chat-hug0611
huggingface trainer.train(),loss已训练至接近0
然后trainer.predict(data_module["eval_dataset"])
image
decoded_labels是正常的,而decoded_predicts是乱码。
image
使用trainer.predict后解码输出就看不出文字效果呢。
请问是什么原因

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

能否解答一下上述几个问题,谢谢!

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

请问train loss下降明显,而trainer.predict results中出现大部分乱码。是否正常,如何从results中提取想要的输出答案。
image

image

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

能否解答一下上述几个问题,谢谢!

from qwen-vl.

DENGBOYU-REX avatar DENGBOYU-REX commented on August 16, 2024

@KDD2018 我在4W图文对,带定位box数据集上做lora微调。 效果也不行,跟没有训练没什么差异。但是训练日志还算可以。 wandb trainloss下降比较明显! --num_train_epochs 1.5,准备增大5-10epoch看下效果。 我Q 294813364

hello大佬有试过增加更多数据做微调吗,我现在用100000份VQA数据做finetune在A100上,发现loss从3.0降低到1.8就不再下降了(在0.5个epoch的时候),测试结果发现也是有点胡言乱语,这个如何解决呢?

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

目前,用100个样本训练fientune,loss下降明显,训练中的评估指标也上来了,说明训练环境应该没有问题。
image
trainer.predict和trainer compute_metrics正常。
再计划用4W个样本finetune训练,观察效果如何。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

现在有个奇怪的问题,fienture lora trainer loss~0 predict可以预测正确的文本结果,但是经过融合 webdemo后预测结果输出文本为通识结果(跟没有finetune一样)。融合后的模型参数已发生微弱变化,lmhead从151860变成了151936.

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

现在有个奇怪的问题,fienture lora trainer loss~0 predict可以预测正确的文本结果,但是经过融合 webdemo后预测结果输出文本为通识结果(跟没有finetune一样)。融合后的模型参数已发生微弱变化,lmhead从151860变成了151936.

from qwen-vl.

expection1985 avatar expection1985 commented on August 16, 2024

我也碰到该问题了,训练效果显著,推理的时候还不如原始模型了。

from qwen-vl.

elesun2018 avatar elesun2018 commented on August 16, 2024

是否应该从模型文件中的modeling_qwen.py排查,目前找不到原因呢

from qwen-vl.

expection1985 avatar expection1985 commented on August 16, 2024

我排查到问题了,预测自己的数据使用的是model.generate,改为model.chat就ok了。

from qwen-vl.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.