CPAR (A Dataset for Chinese Person Attribute Recognition)/中文人物属性识别标注数据
本数据集包含12个属性:出生日期、 职业、 国籍、 民族、 毕业院校、 性别、 出生地、 逝世日期、 学位、 别名、 身高、 体重.
-
出生日期:出生的日期
-
别名:此人别称,又叫做
-
国籍:国籍是指一个人属于某一个国家的国民或公民的法律资格,表明一个人同一个特定国家间的固定的法律联系,是国家行使属人管辖权和外交保护权的法律顾问依据
-
职业:根据**职业规划师协会的定义:职业=职能*行业,这样才能算是一个完整的职业。
-
出生地:此人出生的地方
-
民族:民族,指在文化、语言、历史与其他人群在客观上有所区分的一群人,是近代以来通过研究人类进化史及种族所形成的概念
-
毕业院校:【毕业于】 此人的母校
-
身高:人的高度,从头顶点至地面的垂距
-
体重:人的重量,裸体或穿着已知重量的工作衣称量得到的身体重量
-
学位:是标志一个人学历的头衔,即一个人通过学习取得学识及相应学习能力程度的标志,由国家授权的高等学校颁发。一般包括学士、硕士、博士三种
-
性别:人的性别
-
逝世日期:死亡日期
各个属性值域以及数据量如下所示
属性 | 值域 | 数据量 |
---|---|---|
出生日期 | 数字、字母、中文混合 | 413319 |
国籍 | 中文 | 331291 |
出生地 | 中英文 | 321640 |
职业 | 中文 | 293345 |
性别 | 中文 | 162278 |
毕业学校 | 中文、少数英文 | 157424 |
民族 | 中文 | 152843 |
逝世日期 | 数字、字母、中文混合 | 64757 |
别名 | 中、英文 | 37579 |
学位 | 中文 | 33110 |
身高 | 数字、字母、中文混合 | 2061 |
体重 | 数字、字母、中文混合 | 1246 |
对于每个属性,都使用五折交叉验证的方法进行实验。数据按照8:1:1切分成train、dev、test
./README.md:本文件
./基于远程监督的人物属性抽取研究论文数据/:存放12个属性的标注数据
./基于远程监督的人物属性抽取研究论文数据/属性A/:存放属性A的标注切分数据
举例来说。./基于远程监督的人物属性抽取研究论文数据/出生日期/ 目录下的train1.txt、dev1.txt、test1.txt分别作为“出生日期”这一属性中第一折交叉验证的train、dev、test数据
实验结果采用识别准确率(P)、召回率(R)、和二者的调和平均F1值作为评价标准。对于每一属性,P指正确识别的属性占总计识别出的属性的百分比,R指正确识别的属性占测试集中所有属性的百分比,F1是P和R的调和均值,可以综合考量模型的性能。P(准确率)、R(召回率)、F1的计算方式如下所示:
P=(|A⋂G|)/(|A|)
R=(|A⋂G|)/(|G|)
F1=2PR/(P+R)
其中,|A| 代表识别出的属性值总数,|G| 代表标准集的属性值总数,|A⋂▒G| 代表识别出的属性与标准集完全匹配的属性值总数。
如果使用CPAR数据,请引用下列文献:
- 马进, 杨一帆, 陈文亮, 基于远程监督的人物属性抽取研究. CCL-2019, 2019