关于中文caption评测

Question

看了下中文caption的评测程序，发现产生的句子首先经过jieba中文分词了，然后在计算四个指标前又经过 PTBTokenizer 分词了，请问这样做有什么原因吗？为什么

gujiuxiang · Answer

官方没提供evaluation GT json啊，而且给的demo不清晰，我写了个baseline, 有问题希望指出

wjb123 · Answer

还有另外一个问题，评测代码有点不太人性化。例如需要用户自己处理reference数据成下面这种格式:
{
"caption": "一个

AIChallenger · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

wjb123 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

AIChallenger · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

wjb123 · Answer

好吧，由于不同的分词对最终的评测指标是有影响的，你们难道不应该测试一下吗？

wangheda · Answer

如果确实它造成分数不对

那么现在使用不同分词的评价分数是一致的吗？

AIChallenger · Answer

【更正】经过主办方评委会的确认，为了保证本次大赛的公平性以及评价标准的可对比性，本次AI Challenger的图像中文描述比赛统一使用jieba 0.38分词。祝各位参赛

happygds · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

chenghuige · Answer

大家都用相同的分词标准评估很合理啊，不同的分词粒度肯定metric不一样，比如你用大粒度或者小粒度分词，甚至是单字 metric结果会差很多，但是都用相同的分词标准评估 就

fword · Answer

生成id_to_words.json文件的脚本有吗

Xiong-can · Answer

官方没提供evaluation GT json啊，而且给的demo不清晰，我写了个baseline, 有问题希望指出

关于中文caption评测 about ai_challenger_2017 HOT 12 CLOSED