就比较了一句话的结果就能和jieba一决胜负了 about pkuseg-python HOT 8 CLOSED

lancopku commented on May 5, 2024

就比较了一句话的结果就能和jieba一决胜负了

from pkuseg-python.

Comments (8)

jingjingxupku commented on May 5, 2024 13

可以参见一下之前的 Issue #9 ，作者的本意是提供一个细分领域的分词工具，并且一句话的比较也并没有什么太大意义。

不是只比较了一句，而是比较了通用领域不少歧义的句子，pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

关于您的问题，我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面，而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例，但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。

关于您提到的这种语法结构比较松散的样例，我们建议您使用我们提供的专门在网络文本上训练的模型进行分词，以下是我们测试过的分词结果：

s = pkuseg.pkuseg('pkuseg_test/weibo_model/')
loading model
finish

s.cut('结婚的和尚未结婚的确实在干扰分词啊')
Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']

from pkuseg-python.

TobiasLee commented on May 5, 2024 4

可以参见一下之前的 Issue #9 ，作者的本意是提供一个细分领域的分词工具，并且一句话的比较也并没有什么太大意义。

from pkuseg-python.

ypengc7512 commented on May 5, 2024 3

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词，不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的，那要测试数据集干嘛

一句话的分词结果本身意义不大，不过如果其他分词器都切对了，就这个切错了是不是说明有问题了？
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包：准确率远超THULAC、结巴分词“而来的，以为北大在分词领域做出什么突破性进展了，结果一使用，发现离工业界应用还差的太远。失望之余只能来喷下了

我觉得学术交流和适当建议是好事，但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道，媒体为吸引读者要求可能言语过于夸大了，感觉是学者给媒体背锅，在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了，一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的，哪有十全十美的东西。学者费尽功夫开源代码，结果大家一遍用一遍使劲喷，这未免有点让人心寒吧，这样以后谁还敢开源自己的代码。客气的建议大家都欢迎，如果喷感觉就不太好了。

from pkuseg-python.

mendynew commented on May 5, 2024

可以参见一下之前的 Issue #9 ，作者的本意是提供一个细分领域的分词工具，并且一句话的比较也并没有什么太大意义。

不是只比较了一句，而是比较了通用领域不少歧义的句子，pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

from pkuseg-python.

mendynew commented on May 5, 2024

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词，不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的，那要测试数据集干嘛

一句话的分词结果本身意义不大，不过如果其他分词器都切对了，就这个切错了是不是说明有问题了？
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包：准确率远超THULAC、结巴分词“而来的，以为北大在分词领域做出什么突破性进展了，结果一使用，发现离工业界应用还差的太远。失望之余只能来喷下了

from pkuseg-python.

mendynew commented on May 5, 2024

可以参见一下之前的 Issue #9 ，作者的本意是提供一个细分领域的分词工具，并且一句话的比较也并没有什么太大意义。

不是只比较了一句，而是比较了通用领域不少歧义的句子，pkuseg在这些句子上的分词结果明显会比jieba和hanlp差

关于您的问题，我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面，而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例，但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。

关于您提到的这种语法结构比较松散的样例，我们建议您使用我们提供的专门在网络文本上训练的模型进行分词，以下是我们测试过的分词结果：
s = pkuseg.pkuseg('pkuseg_test/weibo_model/')
loading model
finish

s.cut('结婚的和尚未结婚的确实在干扰分词啊')
Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']

赞这样的回复

from pkuseg-python.

mendynew commented on May 5, 2024

pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词，不知道如此高调的宣布远超jieba的勇气在哪儿 ......

测一句话就能下这样的结论也够6的，那要测试数据集干嘛

一句话的分词结果本身意义不大，不过如果其他分词器都切对了，就这个切错了是不是说明有问题了？
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包：准确率远超THULAC、结巴分词“而来的，以为北大在分词领域做出什么突破性进展了，结果一使用，发现离工业界应用还差的太远。失望之余只能来喷下了

我觉得学术交流和适当建议是好事，但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道，媒体为吸引读者要求可能言语过于夸大了，感觉是学者给媒体背锅，在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了，一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的，哪有十全十美的东西。学者费尽功夫开源代码，结果大家一遍用一遍使劲喷，这未免有点让人心寒吧，这样以后谁还敢开源自己的代码。客气的建议大家都欢迎，如果喷感觉就不太好了。

如果确实是在作者不知情的情况下媒体夸大宣传，那感觉作者这锅背得太冤了。其实我相信在这里提问的并非不是为了来喷作者，而是主要是看了文章，期望太大导致的。鉴于作者的认真回复，我马上关闭这个issue

from pkuseg-python.

hurricanedjp commented on May 5, 2024

额，项目readme里各分词的准确率对比是作者写的吧，媒体根据这个对比说远超也没啥问题啊，确实表里的数值相差比较大。效果没那么好和描述有出入，锅全甩给媒体也不行吧

from pkuseg-python.

就比较了一句话的结果就能和jieba一决胜负了 about pkuseg-python HOT 8 CLOSED

Comments (8)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs