Comments (8)
可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。
不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差
关于您的问题,我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面,而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例,但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。
关于您提到的这种语法结构比较松散的样例,我们建议您使用我们提供的专门在网络文本上训练的模型进行分词,以下是我们测试过的分词结果:
s = pkuseg.pkuseg('pkuseg_test/weibo_model/')
loading model
finish
s.cut('结婚的和尚未结婚的确实在干扰分词啊')
Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
from pkuseg-python.
可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。
from pkuseg-python.
pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......测一句话就能下这样的结论也够6的,那要测试数据集干嘛
一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了
我觉得学术交流和适当建议是好事,但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道,媒体为吸引读者要求可能言语过于夸大了,感觉是学者给媒体背锅,在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了,一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的,哪有十全十美的东西。学者费尽功夫开源代码,结果大家一遍用一遍使劲喷,这未免有点让人心寒吧,这样以后谁还敢开源自己的代码。客气的建议大家都欢迎,如果喷感觉就不太好了。
from pkuseg-python.
可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。
不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差
from pkuseg-python.
pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......测一句话就能下这样的结论也够6的,那要测试数据集干嘛
一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了
from pkuseg-python.
可以参见一下之前的 Issue #9 ,作者的本意是提供一个细分领域的分词工具,并且一句话的比较也并没有什么太大意义。
不是只比较了一句,而是比较了通用领域不少歧义的句子,pkuseg在这些句子上的分词结果明显会比jieba和hanlp差
关于您的问题,我们其实并不认可根据某些样例进行工具包之间比较的这种评测方式。这种比较方法比较片面,而且不同人容易得出不同的结论。虽然我们也可以找到一些pkuseg可以分对但是其他工具包分错的样例,但是我们并不能仅根据这些特定样本就可以得出我们的工具包比其他工具包更好的结论。
关于您提到的这种语法结构比较松散的样例,我们建议您使用我们提供的专门在网络文本上训练的模型进行分词,以下是我们测试过的分词结果:
s = pkuseg.pkuseg('pkuseg_test/weibo_model/') loading model finish s.cut('结婚的和尚未结婚的确实在干扰分词啊') Out[5]: ['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
赞这样的回复
from pkuseg-python.
pkuseg:
seg = pkuseg.pkuseg()
print(seg.cut('结婚的和尚未结婚的确实在干扰分词啊'))
['结婚', '的', '和尚', '未', '结婚', '的确', '实在', '干扰', '分词', '啊']
jieba:
print([i[0] for i in jieba.tokenize('结婚的和尚未结婚的确实在干扰分词啊')])
['结婚', '的', '和', '尚未', '结婚', '的', '确实', '在', '干扰', '分词', '啊']
一句话分错三个词,不知道如此高调的宣布远超jieba的勇气在哪儿 ......测一句话就能下这样的结论也够6的,那要测试数据集干嘛
一句话的分词结果本身意义不大,不过如果其他分词器都切对了,就这个切错了是不是说明有问题了?
我想在这里提问的都是奔着文章标题说的“北大开源全新中文分词工具包:准确率远超THULAC、结巴分词“而来的,以为北大在分词领域做出什么突破性进展了,结果一使用,发现离工业界应用还差的太远。失望之余只能来喷下了我觉得学术交流和适当建议是好事,但是喷就有点说不过去了。作者Readme上已经写了事先不知情媒体的报道,媒体为吸引读者要求可能言语过于夸大了,感觉是学者给媒体背锅,在这儿喷有点不太合适吧。作者在Readme上更新的实验结果已经很多了,一个软件哪能做到每个测试样本都秒杀其他。模型有不足的地方作者以后继续完善是很正常的,哪有十全十美的东西。学者费尽功夫开源代码,结果大家一遍用一遍使劲喷,这未免有点让人心寒吧,这样以后谁还敢开源自己的代码。客气的建议大家都欢迎,如果喷感觉就不太好了。
如果确实是在作者不知情的情况下媒体夸大宣传,那感觉作者这锅背得太冤了。其实我相信在这里提问的并非不是为了来喷作者,而是主要是看了文章,期望太大导致的。鉴于作者的认真回复,我马上关闭这个issue
from pkuseg-python.
额,项目readme里各分词的准确率对比是作者写的吧, 媒体根据这个对比说远超也没啥问题啊,确实表里的数值相差比较大。效果没那么好和描述有出入,锅全甩给媒体也不行吧
from pkuseg-python.
Related Issues (20)
- 自己指定postag的路径、自己指定model_name预训练模型路径 HOT 2
- 下载的zip包删除就会导致重新下载,但是目录下有解压的文件
- 能不能用自训练模型,对文件进行分词啊? HOT 1
- 打包缺少文件情况 FileNotFoundError: \\cache\\_MEI183882\\pkuseg\\dicts\\default.pkl' HOT 2
- 是否可以支持在 M1下使用 目前直接安装会报错。 HOT 2
- AttributeError: type object 'pkuseg' has no attribute 'pkuseg'
- TypeError: train() got an unexpected keyword argument 'nthread' HOT 1
- 词性标注效果过好 HOT 1
- Python3.9/3.9均无法pip安装成功 HOT 7
- 如何进行领域自适应训练? HOT 1
- 虚拟环境下使用出现FileNotFoundError,已单独下载postag还是无果
- cannot install in the environment of python 3.9 HOT 6
- pip install failed on Python 3.10.8 HOT 4
- 越训练,f-score越低 HOT 4
- pip install failed on Python 3.10.9 HOT 7
- 词性标注不准
- 预训练模型“default_v2”导入报错 HOT 2
- 祈使句/动宾短语,分词好像有些不对劲呢,望指点,谢谢
- 分词结果严重错误 HOT 3
- 词性输出错误
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from pkuseg-python.