brightmart / nlp_chinese_corpus Goto Github PK
View Code? Open in Web Editor NEW大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
License: MIT License
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
License: MIT License
请问有人知道怎么通过百科问答来构建语义相似训练数据吗?
目标:语句1 语句2 相似/不相似
谢谢!
你好,发布的语料质量很高且体量也大,很有帮助!
想请问下发布的语料是否会存在版权问题,能否用于商业?
短答案没什么问题,长答案几乎全部在200字左右被截断。我随机看了几十个例子,并且在网上对照了一下,基本上没有完整的长答案。
新闻语料的链接失效了,能否麻烦作者补一下,谢谢
能不能分享有關醫學的語料庫像是對症狀或是疾病描述等等。謝謝!
也不是都丢失了,好像括号中包含了英文的话,就会丢失,能否修复下这个问题呢?
webtext2019zh中的文本仍含有
,有计划把这些html的tag去除了吗?
{"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}
Hi, I didn't find a licence of the corpus. Could you post it?
rt
希望能有验证集的benchmark等信息
json文件里存的的是unicode编码 "text":"\u30a2\u30d5\u30ea\u30ab \u30a2\u30d5\u30ea\u30ab\uff08\u82f1\u00a0:
lines1 = f1.read()
lines1 = lines1 .encode('utf-8').decode("unicode_escape")
print(path1+':'+line)
UnicodeEncodeError: 'utf-8' codec can't encode characters in position 118-119: surrogates not allowed
这个错误怎么解决?
Any one know where to get them?
Thank you and thank you.
新闻语料解压失败?
请提供百度网盘外其他下载方式吧,谷歌的云端硬盘个人的也有15G,腾讯微盘也行,百度真的下不下来啊,不能大家都去开会员吧,很痛苦啊……或者像另一位说的用torrent也可以吧。诚恳的请求大佬考虑一下该建议,感谢!
你好,请问下有没有中文的文档级关系抽取数据集
楼主您好,不知道在哪有情感分析所用的语料库比较丰富
这有2份电商语料,推荐:
http://yongfeng.me/dataset/
在新闻数据集中,每条新闻数据都有关键词标签,想问下这些关键词是人工标记的还是算法生成的?
English和Chinese语句位置颠倒了
请问平行语料有没有真实的链接,劳烦共享一下,谢谢
目前的空间,非**的用户很难下载,请问是否可以上传资料到其他空间上?谢谢
有中文句子级别的带注音的语料就好了
Hi,我想在 Linux 服务器上下载数据,请问“维基百科json版(wiki2019zh) ” 的数据能否在
https://dumps.wikimedia.org/zhwiki/latest/ 中找到?
如果没有的话,是否有其他的不通过百度云获取的方式?
作者您好,请问这些数据是来自于哪里的,是否有出处?非常感谢您的贡献
你好,我这边Google drive打不开,这两个数据集能不能也提供百度网盘下载,谢谢!!!
Baidu网盘限速严重,能够提供Google云盘的链接?
推荐一个腾讯AI实验室最近release的中文embeddings,不太清楚他们的corpus是
I would like to recommend recently released pre-trained, Chinese-based, word embeddings. I don't quite know the corpus they trained the embeddings on, though.
https://ai.tencent.com/ailab/nlp/embedding.html
Hope it helps.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.