GithubHelp home page GithubHelp logo

数据集报错 about w2ner HOT 10 CLOSED

lzf00 avatar lzf00 commented on August 13, 2024
数据集报错

from w2ner.

Comments (10)

ljynlp avatar ljynlp commented on August 13, 2024

从报错结果来看应该是输入超过了BERT的512长度限制

from w2ner.

lzf00 avatar lzf00 commented on August 13, 2024

从报错结果来看应该是输入超过了BERT的512长度限制

对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。

from w2ner.

ljynlp avatar ljynlp commented on August 13, 2024

从报错结果来看应该是输入超过了BERT的512长度限制

对,我发现了一个超长的句子,删掉就好了,但是自己的数据集训练完全没有效果,想问一下需要怎么处理数据集。。。。

是不是数据集和标签处理有问题呢

from w2ner.

lzf00 avatar lzf00 commented on August 13, 2024

句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗;
还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?

from w2ner.

ljynlp avatar ljynlp commented on August 13, 2024

句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?

中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理

from w2ner.

lzf00 avatar lzf00 commented on August 13, 2024

明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。

from w2ner.

nlper01 avatar nlper01 commented on August 13, 2024

明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。

你好,数据集预处理的代码可以分享一下吗?邮箱[email protected]

from w2ner.

lzf00 avatar lzf00 commented on August 13, 2024

明白了,需要不同处理方式,那我还是把英文的实体先去掉。。。。

你好,数据集预处理的代码可以分享一下吗?邮箱[email protected]

那个人的数据格式都不同,你只需要按照作者的格式提取相应的信息整合即可

from w2ner.

lzf00 avatar lzf00 commented on August 13, 2024

句子的长度尽量差不多,然后每个句子中的实体不要太多,这样处理比较好吗; 还有一个问题就是,我的实体名字有中文也有英文,这样应该也会对训练造成影响吧?

中英文混杂的话需要处理好分词,中文数据集我采用的是字粒度,英文数据集采用的是词粒度,如果中英文混杂的话可能需要一些特殊处理

我的实体语料里面有很多的英文名称,但是我想做中文的命名实体识别,我目前有两种方案:①语料中不标注英文实体,只标注中文实体,但是英文也在语料句子中; ②将语料中的英文直接去掉用空格或者空字符代替(或者用其他符号代替),我想问问两种方法您比较推荐哪一个?

from w2ner.

ljynlp avatar ljynlp commented on August 13, 2024

可以先尝试一下第二种方案,更容易实现一些。

from w2ner.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.