GitHub - wz043/GMT_Zero

                                                    GMT_Zero

这个模型是个人搭建和训练的一个语言模型，模型参数将近0.6B，主体架构采用的GQA和门控MLP，训练成本将近900块钱，显卡pro6000单卡，有效训练总时间将近2天（预训练和后训练除去试错时间），模型架构和权重都已公开，预训练采用了序列猴子数据集魔搭社区有，后训练用的belle_data1M_cn.json数据集，然后训练曲线公开在https://swanlab.cn/@jwz012/GMT_alpha_0.6B/overview ，其中的匠心数据集训练时loss激增原因暂未查明，最终模型只经过per_train和post_train，文件SFT_tool是一个数据处理函数可以用在预训练和后训练上面,distill_tool里面是蒸馏损失，蒸馏损失代码实际并没有被应用但是这里提供了一个简单模板模型最终效果：

目前发现的问题:1.训练的语料处理未添加bos起始，导致模型对上下文回答分辨不明确，可能会出现前文的内容回到到下一个问题中

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
SFT_tool		SFT_tool
distill_tool		distill_tool
model		model
tokenizer/tokenizer		tokenizer/tokenizer
README.md		README.md
bell_data_post_train.py		bell_data_post_train.py
model_start.py		model_start.py
per_train.py		per_train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages