作者你好。我在使用jieba_fast的时候发现一个问题,就是在使用自定义词典,jieba_fast的分词结果会和jieba的分词结果有所不同。系统版本为ubuntu18.04,库的版本信息如下:
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 3.847 seconds.
Prefix dict has been built succesfully.
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 2.129 seconds.
Prefix dict has been built succesfully.
Building prefix dict from /home/zeng/Code/work/jixin/PublicMonitoring/NoteBook/word_list_nnlm_128.txt ...
Loading model from cache /tmp/jieba.u2fcc826b59ac43bb4127b88239445c58.cache
True
Loading model cost 8.175 seconds.
Prefix dict has been built succesfully.
Building prefix dict from /home/zeng/Code/work/jixin/PublicMonitoring/NoteBook/word_list_nnlm_128.txt ...
Loading model from cache /tmp/jieba.u2fcc826b59ac43bb4127b88239445c58.cache
Loading model cost 6.771 seconds.
Prefix dict has been built succesfully.
False
['从', '一', '开始', '的', '不', '被', '看好', '到', '逆袭', ',', '拼', '多多', '只', '用', '了', '3', '年', '的', '时间', '。', '虽然', '上周', '的', '优惠', '券', '漏洞', '让', '拼', '多多', '被', '薅', '了', '千万', '羊毛', ',', '但却', '并未', '对其', '股价', '造成', '不利', '影响', '。', '25', '日', '拼', '多多', '市值', '报', '318', '.', '38', '亿', '美元', ',', '超过', '京东', '313', '.', '51', '亿', '的', '市值', '。', '拼', '多多', '股价', '周四', '大涨', '。', '截至', '收盘', '时', ',', '拼', '多多', '股价', '收', '于', '28', '.', '74', '美元', ',', '上涨', '2', '.', '07', '美元', ',', '涨幅', '达', '7', '.', '76', '%', '。', '而', '京东', '股价', '收', '于', '22', '.', '1', '美元', ',', '上涨', '0', '.', '13', '美元', ',', '涨幅', '为', '0', '.', '59', '%', ',', '成为', '**', '第二', '大', '电', '商', '平台', '。', '拼', '多多', '股价', '在', '过去', '的', '半年', '里', '波动', '强烈', ':', 'IPO', '定价', '于', '19', '美元', ',', '首', '日', '收盘', '价', '就', '达到', '26', '.', '70', '美元', ',', '涨幅', '达', '40', '.', '5', '%', ';', '之后', '不断', '下跌', '至', '17', '.', '22', '美元', ',', '然后', '就', '一路上', '涨', ',', '创造', '目前', '历史', '最高', '价', '30', '.', '48', '美元', ',', '但', '随后', '再次', '下跌', ',', '达到', '历史', '最低价', '16', '.', '53', '美元', ';', '此后', '公司', '股票', '在', '22', '美元', '附近', '震荡', '。', '拼', '多多', '股价', '波动', '强烈', '拼', '多多', '近日', '遭遇', '两大', '利空', ',', '一方面', ',', '拼', '多多', '被曝', '出现', '重大', '漏洞', ',', '引来', '大批', '用户', '“', '薅', '羊毛', '”', ',', '导致', '公司', '声誉', '和', '资金', '遭到', '重大', '损失', '。', '另一方面', ',', '拼', '多多', '股票', '的', '禁售', '期', '将于', '1', '月', '22', '日', '结束', '。', '届时', ',', '将', '有', '大量', '拼', '多多', '股东', '二级', '市场', '出售', '股票', '进行', '套现', '。', '虽然', '有', '很多', '人', '不', '喜欢', '拼', '多多', ',', '但是', '不得不', '说', '拼', '多多', '近来', '发展', '确实', '不错', ',', '而', '京东', '今年', '则', '比较', '坎坷', ',', '但', '在', '物流', '和服', '务', '方面', '还是', '口碑', '不错', '的', '。', '此前', '刘强', '东', '曾', '称', '京东', '和', '拼', '多多', '的', '商业', '模式', '不同', '。', '黄', '峥', '则', '回应', '称', '要', '多', '向', '电', '商', '前辈', '学习', '。']
['从', '一', '开始', '的', '不', '被', '看好', '到', '逆袭', ',', '拼', '多多', '只', '用', '了', '3', '年', '的', '时间', '。', '虽然', '上周', '的', '优惠', '券', '漏洞', '让', '拼', '多多', '被', '薅', '了', '千万', '羊毛', ',', '但却', '并未', '对其', '股价', '造成', '不利', '影响', '。', '25', '日', '拼', '多多', '市值', '报', '318', '.', '38', '亿', '美元', ',', '超过', '京东', '313', '.', '51', '亿', '的', '市值', '。', '拼', '多多', '股价', '周四', '大涨', '。', '截至', '收盘', '时', ',', '拼', '多多', '股价', '收', '于', '28', '.', '74', '美元', ',', '上涨', '2', '.', '07', '美元', ',', '涨幅', '达', '7', '.', '76', '%', '。', '而', '京东', '股价', '收', '于', '22', '.', '1', '美元', ',', '上涨', '0', '.', '13', '美元', ',', '涨幅', '为', '0', '.', '59', '%', ',', '成为', '**', '第二', '大', '电', '商', '平台', '。', '拼', '多多', '股价', '在', '过去', '的', '半年', '里', '波动', '强烈', ':', 'IPO', '定价', '于', '19', '美元', ',', '首', '日', '收盘', '价', '就', '达到', '26', '.', '70', '美元', ',', '涨幅', '达', '40', '.', '5', '%', ';', '之后', '不断', '下', '跌至', '17', '.', '22', '美元', ',', '然', '后就', '一路', '上涨', ',', '创造', '目前', '历史', '最', '高价', '30', '.', '48', '美元', ',', '但', '随后', '再次', '下跌', ',', '达到', '历史', '最低价', '16', '.', '53', '美元', ';', '此后', '公司', '股票', '在', '22', '美元', '附近', '震荡', '。', '拼', '多多', '股价', '波动', '强烈', '拼', '多多', '近日', '遭遇', '两大', '利空', ',', '一方面', ',', '拼', '多多', '被曝', '出现', '重大', '漏洞', ',', '引来', '大批', '用户', '“', '薅', '羊毛', '”', ',', '导致', '公司', '声誉', '和', '资金', '遭到', '重大', '损失', '。', '另一方面', ',', '拼', '多多', '股票', '的', '禁售', '期', '将于', '1', '月', '22', '日', '结束', '。', '届时', ',', '将', '有', '大量', '拼', '多多', '股东', '二级', '市场', '出售', '股票', '进行', '套现', '。', '虽然', '有', '很', '多人', '不', '喜欢', '拼', '多多', ',', '但是', '不得不', '说', '拼', '多多', '近来', '发展', '确实', '不错', ',', '而', '京东', '今年', '则', '比较', '坎坷', ',', '但', '在', '物流', '和', '服务', '方面', '还是', '口碑', '不错', '的', '。', '此前', '刘强', '东', '曾', '称', '京东', '和', '拼', '多多', '的', '商业', '模式', '不同', '。', '黄', '峥', '则', '回应', '称', '要', '多', '向', '电', '商', '前辈', '学习', '。']
jieba-fast的分词结果和jieba的确差异不大。然而我通过原版jieba分词库在其分词结果的基础上训练了一个情感倾向判断模型,可能是我的模型不够稳健的原因,两个库对这句话的分词结果在模型中预测得到的情感倾向还是有明显差异的,jieba为正面倾向0.9,jieba-fast为正面倾向0.6。