brightmart / nlp_chinese_corpus Goto Github PK

View Code? Open in Web Editor NEW

9.2K 285.0 1.5K 4.11 MB

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

License: MIT License

chinese-dataset chinese-corpus pretrain word2vec nlp bert language-model wiki news question-answering

nlp_chinese_corpus's People

Contributors

Stargazers

Watchers

Forkers

ljwkevin dream1202 cherryl411 jiyulongxu db-li yyht fpzh2011 lgpang haishuofang xtdx zhxhdreams pinkuburu parety lmxko jangqh zj19891214 lietl stevenlol charlottesean yushu-liu ericxsun foreseez kai2002 dylanxia2017 fancycheung kimichang hhy5277 ss4g lishengfever huguanglong aloha0424 gaoyiyeah awesome-archive lutan guanlongtianzi cdj0311 cmcai0104 ilineicry winxblast wgfi110 cobencao loismur nemochina2008 liudicsu mqrshiyan flyingcatanddog syx528911137 xlivevil flyounger ryoko-hyrosue shaunstanislauslau nick-2008 george86028 ouya-bytes dycforever archeryi fengzhou4 searobbersduck nipengmath chaconez ripingit lizongshen 670373064 suzhoushr longxinzhang topdreamer nifannn df595149790 hdulbj flysky1991 midasc dst1213 chapzq77 hanchenan ccdf12 waiteryee1 kyang888 youngsmile whiteboom kangbaoxing jinzhencheng vincentyyf sxjpage zhangjsff tqcai softwareabc chenleijiangjun zzlmljk lgphub leoxian tornadory chengniu forkacc nick-meng w7yuu zqcchris tubu senliuy chavesliu lhzz00

nlp_chinese_corpus's Issues

怎么从问答数据中创建相似语句从而训练语义相似性模型？

请问有人知道怎么通过百科问答来构建语义相似训练数据吗？
目标：语句1 语句2 相似/不相似
谢谢！

关于语料的版权问题

你好，发布的语料质量很高且体量也大，很有帮助！
想请问下发布的语料是否会存在版权问题，能否用于商业？

社区问答数据，答案被截断

短答案没什么问题，长答案几乎全部在200字左右被截断。我随机看了几十个例子，并且在网上对照了一下，基本上没有完整的长答案。

不知道作者下一步有没有兴趣把数据规模提升到T级别？

新闻语料链接失效了

新闻语料的链接失效了，能否麻烦作者补一下，谢谢

有沒有有關醫學的語料庫?

能不能分享有關醫學的語料庫像是對症狀或是疾病描述等等。謝謝!

google drive 下载好慢。能否提供云盘版本的？感谢

wiki数据，括号中的内容丢失

也不是都丢失了，好像括号中包含了英文的话，就会丢失，能否修复下这个问题呢？

这个排行榜是怎么排的？那么奇怪！

想问下有没有比较合适的中文对话数据集

<br> in webtext2019zh

webtext2019zh中的文本仍含有
，有计划把这些html的tag去除了吗?

{"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

licence of the corpus

Hi, I didn't find a licence of the corpus. Could you post it?

能否提供數據清洗的源碼？

引用格式

希望有验证集的benchmark

希望能有验证集的benchmark等信息

翻译数据是人工翻译的吗，还是自动翻译的

json转换

json文件里存的的是unicode编码 "text":"\u30a2\u30d5\u30ea\u30ab \u30a2\u30d5\u30ea\u30ab\uff08\u82f1\u00a0:

    lines1 = f1.read()
    lines1  = lines1 .encode('utf-8').decode("unicode_escape")

print(path1+'：'+line)

UnicodeEncodeError: 'utf-8' codec can't encode characters in position 118-119: surrogates not allowed

这个错误怎么解决？

建议把资源都上传到这个 torrents 网站去

http://academictorrents.com/

The exact English pretraining data and Chinese pretraining data that are exact same to the BERT paper's pretraining data.

Any one know where to get them?
Thank you and thank you.

新闻语料解压失败

新闻语料解压失败？

请问维基百科文件中文件夹的AA，AB...AM代表什么？

非常感谢您的分享，请问这些是什么分类？

请提供百度网盘外其他下载方式

请提供百度网盘外其他下载方式吧，谷歌的云端硬盘个人的也有15G，腾讯微盘也行，百度真的下不下来啊，不能大家都去开会员吧，很痛苦啊……或者像另一位说的用torrent也可以吧。诚恳的请求大佬考虑一下该建议，感谢！

文档级关系抽取数据集

你好，请问下有没有中文的文档级关系抽取数据集

有没有情感倾向的语料库

楼主您好，不知道在哪有情感分析所用的语料库比较丰富

建议添加数据采集来源

翻译语料的链接是指向wiki数据的，能不能修复一下，非常感谢。

新闻语料中新闻关键词标签的来源？

在新闻数据集中，每条新闻数据都有关键词标签，想问下这些关键词是人工标记的还是算法生成的？

有没有电商的实体标注数据

translation2019zh_valid数据第27条有误

English和Chinese语句位置颠倒了

下載百科類問答json版(baike2018qa) 出現404

下載時出現以下錯誤。

平行语料下载下来后，发现是wiki的

请问平行语料有没有真实的链接，劳烦共享一下，谢谢

请问有没有化学有关的语料库？

能否将数据上传到其他空间？

目前的空间，非**的用户很难下载，请问是否可以上传资料到其他空间上？谢谢

中文句子级别的带注音的语料？

有中文句子级别的带注音的语料就好了

维基百科json版(wiki2019zh) 是否有百度云盘下载之外的获取方式？

Hi，我想在 Linux 服务器上下载数据，请问“维基百科json版(wiki2019zh) ” 的数据能否在
https://dumps.wikimedia.org/zhwiki/latest/ 中找到？

如果没有的话，是否有其他的不通过百度云获取的方式？

这些语料适合拿来训练中文语音识别ASR的语言模型吗

数据来源

作者您好，请问这些数据是来自于哪里的，是否有出处？非常感谢您的贡献

webtext2019zh数据不完整

查看了一下train和valid里面的content数据，发现很多content内容都被截断了：

社区问答json版和翻译语料

你好，我这边Google drive打不开，这两个数据集能不能也提供百度网盘下载，谢谢！！！

能否提供Google的共享链接？

Baidu网盘限速严重，能够提供Google云盘的链接？

brightmart / nlp_chinese_corpus Goto Github PK

nlp_chinese_corpus's People

Contributors

Stargazers

Watchers

Forkers

nlp_chinese_corpus's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs