GithubHelp home page GithubHelp logo

Comments (8)

jingjingxupku avatar jingjingxupku commented on May 5, 2024 13

可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。

不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

关于您的问题,我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面,而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例,但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。

关于您提到的这种语法结构比较松散的样例,我们建议您使用我们提供的专门在网络文本上训练的模型进行分词,以下是我们测试过的分词结果:

s = pkuseg.pkuseg('pkuseg_test/weibo_model/')
loading model
finish

s.cut('结婚的和尚未结婚的确实在干扰分词啊')
Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']

from pkuseg-python.

TobiasLee avatar TobiasLee commented on May 5, 2024 4

可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。

from pkuseg-python.

ypengc7512 avatar ypengc7512 commented on May 5, 2024 3

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的,那要测试数据集干嘛

一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了

我觉得学术交流和适当建议是好事,但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道,媒体为吸引读者要求可能言语过于夸大了,感觉是学者给媒体背锅,在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了,一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的,哪有十全十美的东西。学者费尽功夫开源代码,结果大家一遍用一遍使劲喷,这未免有点让人心寒吧,这样以后谁还敢开源自己的代码。客气的建议大家都欢迎,如果喷感觉就不太好了。

from pkuseg-python.

mendynew avatar mendynew commented on May 5, 2024

可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。

不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

from pkuseg-python.

mendynew avatar mendynew commented on May 5, 2024

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的,那要测试数据集干嘛

一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了

from pkuseg-python.

mendynew avatar mendynew commented on May 5, 2024

可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。

不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

关于您的问题,我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面,而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例,但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。

关于您提到的这种语法结构比较松散的样例,我们建议您使用我们提供的专门在网络文本上训练的模型进行分词,以下是我们测试过的分词结果:

s = pkuseg.pkuseg('pkuseg_test/weibo_model/')
loading model
finish

s.cut('结婚的和尚未结婚的确实在干扰分词啊')
Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']

赞这样的回复

from pkuseg-python.

mendynew avatar mendynew commented on May 5, 2024

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的,那要测试数据集干嘛

一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了

我觉得学术交流和适当建议是好事,但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道,媒体为吸引读者要求可能言语过于夸大了,感觉是学者给媒体背锅,在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了,一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的,哪有十全十美的东西。学者费尽功夫开源代码,结果大家一遍用一遍使劲喷,这未免有点让人心寒吧,这样以后谁还敢开源自己的代码。客气的建议大家都欢迎,如果喷感觉就不太好了。

如果确实是在作者不知情的情况下媒体夸大宣传,那感觉作者这锅背得太冤了。其实我相信在这里提问的并非不是为了来喷作者,而是主要是看了文章,期望太大导致的。鉴于作者的认真回复,我马上关闭这个issue

from pkuseg-python.

hurricanedjp avatar hurricanedjp commented on May 5, 2024

额,项目readme里各分词的准确率对比是作者写的吧, 媒体根据这个对比说远超也没啥问题啊,确实表里的数值相差比较大。效果没那么好和描述有出入,锅全甩给媒体也不行吧

from pkuseg-python.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.