GithubHelp home page GithubHelp logo

Comments (1)

patchie avatar patchie commented on May 14, 2024

I ran it again, and now it seemed to successfully finish.

Adding the last lines of the log while running again, if it will help in any troubleshooting?

{'loss': 1.0238, 'learning_rate': 1.2462789068320016e-05, 'epoch': 0.42}
{'loss': 1.013, 'learning_rate': 1.1702435557223988e-05, 'epoch': 0.44}
{'loss': 1.022, 'learning_rate': 1.0931792674840718e-05, 'epoch': 0.47}
{'loss': 1.0153, 'learning_rate': 1.0155518119203511e-05, 'epoch': 0.49}
{'loss': 1.0143, 'learning_rate': 9.378303625685196e-06, 'epoch': 0.52}
{'loss': 1.0191, 'learning_rate': 8.604846610560771e-06, 'epoch': 0.54}
{'loss': 1.0176, 'learning_rate': 7.839821780235168e-06, 'epoch': 0.57}
{'loss': 1.0169, 'learning_rate': 7.0878528777274814e-06, 'epoch': 0.59}
{'loss': 1.0168, 'learning_rate': 6.35348473717345e-06, 'epoch': 0.62}
{'loss': 1.0117, 'learning_rate': 5.64115581524629e-06, 'epoch': 0.64}
{'loss': 1.0106, 'learning_rate': 4.955171365513603e-06, 'epoch': 0.67}
67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [150:33:44<70:43:02, 3857.31s/it][INFO|trainer.py:3158] 2023-12-10 17:22:46,485 >> ***** Running Evaluation *****
[INFO|trainer.py:3160] 2023-12-10 17:22:46,486 >> Num examples = 23110
[INFO|trainer.py:3163] 2023-12-10 17:22:46,486 >> Batch size = 1
{'eval_loss': 1.0159717798233032, 'eval_runtime': 19243.2251, 'eval_samples_per_second': 1.201, 'eval_steps_per_second': 1.201, 'epoch': 0.67}
67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<70:43:02, 3857.31s/it[INFO|trainer.py:1955] 2023-12-10 22:43:29,715 >>

Training completed. Do not forget to share your model on huggingface.co/models =)

{'train_runtime': 561882.257, 'train_samples_per_second': 0.37, 'train_steps_per_second': 0.0, 'train_loss': 1.0438810963841045, 'epoch': 0.67}
67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<75:44:37, 4131.48s/it]***** train metrics *****
epoch = 0.67
train_loss = 1.0439
train_runtime = 6 days, 12:04:42.25
train_samples = 207865
train_samples_per_second = 0.37
train_steps_per_second = 0.0
2023-12-10 22:43:29 - INFO - main - *** Evaluate ***
[INFO|trainer.py:3158] 2023-12-10 22:43:29,739 >> ***** Running Evaluation *****
[INFO|trainer.py:3160] 2023-12-10 22:43:29,739 >> Num examples = 23110
[INFO|trainer.py:3163] 2023-12-10 22:43:29,739 >> Batch size = 1
67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 15431/23110 [5:22:04<2:40:16, 1.25s/it]***** eval metrics *****
epoch = 0.67
eval_loss = 1.016
eval_runtime = 5:22:05.99
eval_samples = 23110
eval_samples_per_second = 1.196
eval_steps_per_second = 1.196
2023-12-11 04:05:35 - INFO - main - *** Save model ***
[INFO|trainer.py:2881] 2023-12-11 04:05:35,784 >> Saving model checkpoint to data/zephyr-7b-sft-lora
[INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:39,111 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json
[INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:39,115 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json
[INFO|trainer.py:2881] 2023-12-11 04:05:39,299 >> Saving model checkpoint to data/zephyr-7b-sft-lora
[INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:41,961 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json
[INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:41,966 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json
events.out.tfevents.1702263935.17694.1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 359/359 [00:01<00:00, 189B/s]events.out.tfevents.1701096113.9499.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8.50k/8.50k [00:01<00:00, 4.45kB/s]events.out.tfevents.1701681021.4007.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.65k/4.65k [00:01<00:00, 2.40kB/s]events.out.tfevents.1701682727.17694.0: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9.59k/9.59k [00:01<00:00, 4.94kB/s]training_args.bin: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.66k/4.66k [00:00<00:00, 27.4kB/s]tokenizer.model: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 493k/493k [00:00<00:00, 692kB/s]adapter_model.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 218M/218M [00:19<00:00, 11.2MB/s]Upload 7 LFS files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:20<00:00, 2.87s/it]2023-12-11 04:06:06 - INFO - main - Model saved to data/zephyr-7b-sft-lora████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 217M/218M [00:18<00:00, 10.9MB/s][INFO|modelcard.py:452] 2023-12-11 04:06:06,770 >> Dropping the following result as it does not have all the necessary fields:
{'dataset': {'name': 'HuggingFaceH4/ultrachat_200k', 'type': 'HuggingFaceH4/ultrachat_200k'}}
[INFO|configuration_utils.py:461] 2023-12-11 04:06:06,779 >> Configuration saved in data/zephyr-7b-sft-lora/config.json
2023-12-11 04:06:06 - INFO - main - Pushing to hub...
[INFO|trainer.py:2881] 2023-12-11 04:06:06,779 >> Saving model checkpoint to data/zephyr-7b-sft-lora
[INFO|tokenization_utils_base.py:2428] 2023-12-11 04:06:09,653 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json
[INFO|tokenization_utils_base.py:2437] 2023-12-11 04:06:09,659 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json

from alignment-handbook.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.