您好，我在学习和测试项目代码的时候，发现有如下的几个地方用项目原始代码跑不通，想请您看一下是否是我的使用方式有问题： <p

extra-vocab-size是啥意思，为什么是293呀？152064-151643=421 <p dir=

4个Qwen1.5微调代码中的问题 about pai-megatron-patch HOT 5 CLOSED

xikaluo commented on August 28, 2024

4个Qwen1.5微调代码中的问题

from pai-megatron-patch.

Comments (5)

lwmlyy commented on August 28, 2024

使用transformers 4.38.1 不需要merges.txt，你可以再试下，我这边测试的是7b模型，理论上所以模型的tokenizer应该是一样的
是的，qwen-hf格式的模型emb实际维度与tokenizer.vocab_size不一致导致此问题，需要在运行设置EXTRA_VOCAB_SIZE，可参考https://github.com/alibaba/Pai-Megatron-Patch/blob/main/examples/qwen1.5/run_finetune_megatron_qwen_withGA.sh 第二行，每个模型的EXTRA_VOCAB_SIZE设置为qwen-hf中config.json中的vocab_size减去tokenizer.vocab_size。
我这边验证了开启pp时可以正常跑，确认下运行环境、gpu卡数设置（tp*pp）

from pai-megatron-patch.

smartparrot commented on August 28, 2024

extra-vocab-size是啥意思，为什么是293呀？152064-151643=421

from pai-megatron-patch.

yanyc428 commented on August 28, 2024

我这边也出现了第一个问题，transformers版本是4.38.1，测试的7b模型

from pai-megatron-patch.

xikaluo commented on August 28, 2024

使用transformers 4.38.1 不需要merges.txt，你可以再试下，我这边测试的是7b模型，理论上所以模型的tokenizer应该是一样的

是的，qwen-hf格式的模型emb实际维度与tokenizer.vocab_size不一致导致此问题，需要在运行设置EXTRA_VOCAB_SIZE，可参考https://github.com/alibaba/Pai-Megatron-Patch/blob/main/examples/qwen1.5/run_finetune_megatron_qwen_withGA.sh 第二行

我这边验证了开启pp时可以正常跑，确认下运行环境、gpu卡数设置（tp*pp）

刚才又测试了一下，在transformers 4.38.1或4.38.2的情况下，不带merges.txt时还是会报错，但是如果把 https://github.com/alibaba/Pai-Megatron-Patch/blob/main/megatron_patch/tokenizer/__init__.py#L96 这一行的use_fast注释掉就不会出错了
之前没有想到可以通过EXTRA_VOCAB_SIZE来设置，不过比较神奇的是，qwen-1.5-的7B和14B模型，vocab_size是不一样的，EXTRA_VOCAB_SIZE=293只适合于7B模型。所以理论上可能用读取参数的方式来做会比较稳妥？
拉了一个nvidia的官方docker镜像之后可以正常运行了，估计是我之前某些地方没有配置好吧

from pai-megatron-patch.

xikaluo commented on August 28, 2024

extra-vocab-size是啥意思，为什么是293呀？152064-151643=421

看我上面的回复，7B和14B的vocab_size不一样，293是7B的

from pai-megatron-patch.

4个Qwen1.5微调代码中的问题 about pai-megatron-patch HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs