个人的NLP实践demo。部分来源于其他开源项目(侵删)。欢迎Star Fork以及PR。有问题发Issue,我会回复的。
Some Simple implement of Fun NLP algorithm in Pytorch. updating and maintaining
If you have problems, please comment in Issue
主要内容(具体见各个项目内部的README)
- 文本分类,BiLSTM,Transfomer
- 摘要生成,Pointer Generator NetWork
- 对话翻译 Seq2Seq
- GNN在文本分类的实践
- Transformer Mask Language Model预训练
- GPT文本续写以及GPT做数学题(偷的hhh)
- 其他的NLP炼丹技巧实践 对抗学习等
- 新增两个大佬的Transformer实现,来源注于代码中(实现的很漂亮,对于理解很有帮助)
其他参考实践
- bert关系抽取:Ricardokevins/Bert-In-Relation-Extraction: 使用Bert完成实体之间关系抽取 (github.com)
- 文本语意匹配:Ricardokevins/Text_Matching: NLP2020中兴捧月句子相似度匹配 (github.com)
- Transfomer实现和其他部件:Ricardokevins/EasyTransformer: Quick start with strong baseline of Bert and Transformer without pretrain (github.com)
- 在Transformer里增加了一个随机数字串恢复的Demo,对新手理解Transformer超友好,不需要外部数据,利用随机构造的数字串训练
- 新增实验TransfomerVAE,暂时有BUG,施工中
- 初次commit 添加句子分类模块,包含Transformer和BiLSTM以及BiLSTM+Attn模型
- 上传基本数据集,句子二分类作为Demo例子
- 加上和使用对抗学习思路
- 重新整理和更新了很多东西.... 略
- 修复了Text Classification的一些整理问题
- 增加了Text Classification对应的使用说明
- 增加了MLM预训练技术实践
- 修复了句子分类模型里,过分大且不必要的Word Embed(因为太懒,所以只修改了Transformer的)
- 在句子分类里增加了加载预训练的可选项
- 修复了一些BUG
- 增加了GNN在NLP中的应用
- 实现了GNN在文本分类上的使用
- 效果不好,暂时怀疑是数据处理的问题
- 增加了CHI+TFIDF传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了README
- 重构了对话机器人模型于Seq2Seq文件夹
- 实现了BeamSearch解码方式
- 修复了PGN里的BeamSearch Bug
- 添加了GPT在文本续写和数学题问题的解决(偷了karpathy/minGPT: A minimal PyTorch re-implementation of the OpenAI GPT (Generative Pretrained Transformer) training (github.com)代码实现的很好,对理解GPT很有帮助,偷过来看看能不能用在好玩的东西
- 重构了Pointer Generator NetWork,之前的表现一直不好,打算干脆重构,一行一行的重新捋一遍,感觉会安心很多。施工ing。
- 修复了Pretrain里Mask Token未对齐,位置不一致问题