GithubHelp home page GithubHelp logo

Comments (3)

jingjingxupku avatar jingjingxupku commented on May 4, 2024 13

1、拿测试语料去训练,再拿测试语料做测试,这完全就是不专业的做法
2、即便是几个分词工具都按照测试语料做训练,但是都是你们来做,你们更熟悉pkuseg的调试,所以调试效果肯定好,最终效果有偏

综上:如果不能提供全新黑盒数据的对比测试结果,那么就别吹的那么厉害

同意,应该用这3个模型都没被训练过的数据集做仿真。用训练模型的数据集做评估,这本身就没有比较意义

我们并没有用测试语料做训练。您这样说是有误导性的,可能会让别人误以为我们是在测试集上训练测试集上测试。

针对您的第二点,对所有工具包,我们都是使用了默认的超参数,并没有进行调参,pkuseg也没有调参。

为了解答您的疑虑,我们比较了各个工具包在特定领域训练,在未见过黑盒领域测试的结果:

ctb训练 msr ctb pku weibo all avg ood avg
jieba 82.75 87.14 87.12 85.68 85.67 85.18
thulac 83.50 94.56 89.13 91.00 89.55 87.88
pkuseg 83.67 95.69 89.67 91.19 90.06 88.18

all avg是所有测试集的平均,一定程度上反映平均性能
ood avg是除ctb测试集外其它测试集的平均,反映领域外分词性能

从中可以看出,我们的模型在未见过的语料上表现也是比较好的。由于我们对LTP和Hanlp工具包并不熟悉,训练和测试需要花一定时间,但是我们愿意尽快地补做更多实验,公布跟这些数据集比较的实验结果。感谢您的评论,我们会继续努力改进我们的代码,希望可以得到您的认可。

from pkuseg-python.

yaleimeng avatar yaleimeng commented on May 4, 2024

论文可以忽悠,但是肯定没法横向评比的了。
这年头,大家这么认真,学者们都不能愉快地吹牛装13了。

from pkuseg-python.

yangbisheng2009 avatar yangbisheng2009 commented on May 4, 2024

1、拿测试语料去训练,再拿测试语料做测试,这完全就是不专业的做法
2、即便是几个分词工具都按照测试语料做训练,但是都是你们来做,你们更熟悉pkuseg的调试,所以调试效果肯定好,最终效果有偏
综上:如果不能提供全新黑盒数据的对比测试结果,那么就别吹的那么厉害

同意,应该用这3个模型都没被训练过的数据集做仿真。用训练模型的数据集做评估,这本身就没有比较意义

我们并没有用测试语料做训练。您这样说是有误导性的,可能会让别人误以为我们是在测试集上训练测试集上测试。

针对您的第二点,对所有工具包,我们都是使用了默认的超参数,并没有进行调参,pkuseg也没有调参。

为了解答您的疑虑,我们比较了各个工具包在特定领域训练,在未见过黑盒领域测试的结果:

ctb训练 msr ctb pku weibo all avg ood avg
jieba 82.75 87.14 87.12 85.68 85.67 85.18
thulac 83.50 94.56 89.13 91.00 89.55 87.88
pkuseg 83.67 95.69 89.67 91.19 90.06 88.18
all avg是所有测试集的平均,一定程度上反映平均性能
ood avg是除ctb测试集外其它测试集的平均,反映领域外分词性能

从中可以看出,我们的模型在未见过的语料上表现也是比较好的。由于我们对LTP和Hanlp工具包并不熟悉,训练和测试需要花一定时间,但是我们愿意尽快地补做更多实验,公布跟这些数据集比较的实验结果。感谢您的评论,我们会继续努力改进我们的代码,希望可以得到您的认可。

嗯,我觉得最后这一个表格是具有说服力的,建议readme里面优先贴上这个表格
原因是 很多人在尝试不同的分类工具的时候,一般是使用工具自带提供的模型来使用。这样能够更直观的比较

另外建议和 hanlp、ltp、ansj来做对比,因为凡是有过一定nlp经验的同学,都知道结巴分词是非常易用,但是效果不好。
感谢答复!

from pkuseg-python.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.