GithubHelp home page GithubHelp logo

cpar's Introduction

CPAR

CPAR (A Dataset for Chinese Person Attribute Recognition)/中文人物属性识别标注数据

属性类别说明

本数据集包含12个属性:出生日期、 职业、 国籍、 民族、 毕业院校、 性别、 出生地、 逝世日期、 学位、 别名、 身高、 体重.

  1. 出生日期:出生的日期

  2. 别名:此人别称,又叫做

  3. 国籍:国籍是指一个人属于某一个国家的国民或公民的法律资格,表明一个人同一个特定国家间的固定的法律联系,是国家行使属人管辖权和外交保护权的法律顾问依据

  4. 职业:根据**职业规划师协会的定义:职业=职能*行业,这样才能算是一个完整的职业。

  5. 出生地:此人出生的地方

  6. 民族:民族,指在文化、语言、历史与其他人群在客观上有所区分的一群人,是近代以来通过研究人类进化史及种族所形成的概念

  7. 毕业院校:【毕业于】 此人的母校

  8. 身高:人的高度,从头顶点至地面的垂距

  9. 体重:人的重量,裸体或穿着已知重量的工作衣称量得到的身体重量

  10. 学位:是标志一个人学历的头衔,即一个人通过学习取得学识及相应学习能力程度的标志,由国家授权的高等学校颁发。一般包括学士、硕士、博士三种

  11. 性别:人的性别

  12. 逝世日期:死亡日期

数据切分

各个属性值域以及数据量如下所示

属性 值域 数据量
出生日期 数字、字母、中文混合 413319
国籍 中文 331291
出生地 中英文 321640
职业 中文 293345
性别 中文 162278
毕业学校 中文、少数英文 157424
民族 中文 152843
逝世日期 数字、字母、中文混合 64757
别名 中、英文 37579
学位 中文 33110
身高 数字、字母、中文混合 2061
体重 数字、字母、中文混合 1246

对于每个属性,都使用五折交叉验证的方法进行实验。数据按照8:1:1切分成train、dev、test

文件目录说明

./README.md:本文件

./基于远程监督的人物属性抽取研究论文数据/:存放12个属性的标注数据

./基于远程监督的人物属性抽取研究论文数据/属性A/:存放属性A的标注切分数据

举例来说。./基于远程监督的人物属性抽取研究论文数据/出生日期/ 目录下的train1.txt、dev1.txt、test1.txt分别作为“出生日期”这一属性中第一折交叉验证的train、dev、test数据

评测工具

实验结果采用识别准确率(P)、召回率(R)、和二者的调和平均F1值作为评价标准。对于每一属性,P指正确识别的属性占总计识别出的属性的百分比,R指正确识别的属性占测试集中所有属性的百分比,F1是P和R的调和均值,可以综合考量模型的性能。P(准确率)、R(召回率)、F1的计算方式如下所示:

P=(|A⋂G|)/(|A|)
R=(|A⋂G|)/(|G|)
F1=2PR/(P+R)

其中,|A| 代表识别出的属性值总数,|G| 代表标准集的属性值总数,|A⋂▒G| 代表识别出的属性与标准集完全匹配的属性值总数。

参考文献

如果使用CPAR数据,请引用下列文献:

  • 马进, 杨一帆, 陈文亮, 基于远程监督的人物属性抽取研究. CCL-2019, 2019

cpar's People

Contributors

majin1234 avatar suda-hlt avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.