Comments (10)
从报错结果来看应该是输入超过了BERT的512长度限制
from w2ner.
从报错结果来看应该是输入超过了BERT的512长度限制
对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。
from w2ner.
从报错结果来看应该是输入超过了BERT的512长度限制
对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。
是不是数据集和标签处理有问题呢
from w2ner.
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗;
还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
from w2ner.
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理
from w2ner.
明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。
from w2ner.
明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。
你好,数据集预处理的代码可以分享一下吗?邮箱[email protected]
from w2ner.
明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。
你好,数据集预处理的代码可以分享一下吗?邮箱[email protected]
那个人的数据格式都不同,你只需要按照作者的格式提取相应的信息整合即可
from w2ner.
句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?
中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理
我的实体语料里面有很多的英文名称,但是我想做中文的命名实体识别,我目前有两种方案:①语料中不标注英文实体,只标注中文实体,但是英文也在语料句子中; ②将语料中的英文直接去掉用空格或者空字符代替(或者用其他符号代替),我想问问两种方法您比较推荐哪一个?
from w2ner.
可以先尝试一下第二种方案,更容易实现一些。
from w2ner.
Related Issues (20)
- 长文本数据集表现差 HOT 1
- 训练结果评分解释 HOT 1
- 关于CLN的公式是不是有不严谨的地方?
- 代码功能
- 有 inference代码吗 HOT 1
- 预训练语言模型
- 中文数据集复现问题
- 自己构建中文数据集时word是必需添加的吗? HOT 3
- 中文数据集及配置文件 HOT 1
- 运行问题
- 数据集 HOT 3
- msra数据集
- 關於資料集分數重現差異 HOT 15
- 偶然间发现知网上某硕士论文中的部分章节内容与你们的论文内容高度相似,且未引用 HOT 1
- 关于论文细节 HOT 2
- 麻烦大佬分享一下中文数据集的config配置
- 需要中文数据集及其config配置可看这里 HOT 2
- tensor dont match problem
- 每次复现分数有差别
- gridlabel为什么这样咨询
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from w2ner.