GithubHelp home page GithubHelp logo

openclap's Introduction

OpenCLaP:多领域开源中文预训练语言模型仓库

目录

项目简介

OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点:

  • 多领域。我们目前训练出了基于法律文本和百度百科的预训练模型,以提供多样化的可选择模型。
  • 能力强。我们使用了当前主流的 BERT 模型作为预训练的神经网络结构,并支持最大 512 长度的文本输入来适配更加多样的任务需求。
  • 持续更新。我们将在近期加入更多的预训练模型,如增加更多样的训练语料,使用最新的全词覆盖(Whole Word Masking)训练策略等。

模型概览

以下是我们目前公开发布的模型概览:

名称 基础模型 数据来源 训练数据大小 词表大小 模型大小 下载地址
民事文书BERT bert-base 全部民事文书 2654万篇文书 22554 370MB 点我下载
刑事文书BERT bert-base 全部刑事文书 663万篇文书 22554 370MB 点我下载
百度百科BERT bert-base 百度百科 903万篇词条 22166 367MB 点我下载

使用方式

我们提供的模型可以被开源项目pytorch-pretrained-BERT直接使用。以民事文书BERT为例,具体使用方法分为两步:

  • 首先使用脚本下载我们的模型
wget https://thunlp.oss-cn-qingdao.aliyuncs.com/bert/ms.zip
unzip ms.zip
  • 在运行时指定使用我们的模型--bert_model $model_folder来进行使用

项目网站

请访问 http://zoo.thunlp.org 以获得更多有关信息。

作者与致谢

Haoxi Zhong(钟皓曦,硕士生), Zhengyan Zhang(张正彦,本科生), Zhiyuan Liu(刘知远,副教授), Maosong Sun(孙茂松,教授).

感谢幂律智能对本项目的大力支持与帮助。

openclap's People

Contributors

zzy14 avatar haoxizhong avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.