GithubHelp home page GithubHelp logo

shenxuhui / domainwords Goto Github PK

View Code? Open in Web Editor NEW

This project forked from smoothnlp/domainwords

0.0 1.0 0.0 94.37 MB

SmoothNLP领域词汇示例 - 基于复旦公开新闻资讯库

License: MIT License

Python 100.00%

domainwords's Introduction

SmoothNLP在领域文本上的短语抽取

本项目使用SmoothNLP中的extract_phrase函数,从百度百科语料和复旦大学新闻语料中抽取领域专有词汇,并进行结果展示。

数据介绍

百度百科语料

本实验采用的数据来源于百度百科,包括经济娱乐艺术社会体育历史生活科学自然地理文化共11个领域的文本。

复旦大学新闻语料库

本实验采用的数据来源于复旦大学计算机信息与技术系国际数据库中心的复旦文本语料库,包括经济计算机环境体育艺术农业政治历史宇航教育法律哲学军事文学交通医疗矿业能源电子通信共20个领域的文本。

  • 经济领域文本示例:

经国务院批准,《对储蓄存款利息所得征收个人所得税的实施办法》于近日颁布,并将于1999年11月1日起实施,适用20%的比例税率。这表明,根据我国国民经济总量结构和国民收入结构的重大变化,1958年取消的《个人所得税法》免征的利息所得税即将重新征收。
征收利息所得税将有效刺激消费品需求的增加,扩大社会总需求,带动经济增长,并将转变居民的投资观念和消费观念。
第一,在扩大内需方面,征收利息所得税将比降息更加有效。储蓄存款利率下降与社会消费品增长有一定的相关关系:利率下降1个百分点,市场商品销售将增加1.8个百分点。但是1996年5月以来的7次降息实践表明,降息对扩大内需、增加社会投资的作用越来越弱。其主要原因在于:首先,目前不仅城乡居民的即期收入上不去,而且对未来的预期收入也不佳,同时政府机构精简、国有企业改革以及住房、养老、医疗、教育等各种制度的改革,使居民普遍感到预期支出的提高,我国又没有建立起完善的社会保障制度,从而增强了居民的储蓄动机,以增强安全感。其次,由于社会消费需求不足以及私人投资难以获得融资,降息并没有有效增加社会投资需求,但货币供给量增加,大量资金沉淀于银行,货币流通速度降低,造成货币政策作用不明显,一旦经济启动引起资金需求增加,货币流通速度加快,容易形成货币供应过多、经济过热的隐患。有可能隐入“启动—紧缩—再启动—再紧缩”的怪圈。

  • 计算机领域文本示例:

加密技术可以使我们在不安全的通道上建立安全的连接。在Domino环境中,为了防止对非授权的数据库、文档或者邮件的存取,除对数据库进行不同级别的授权外(七种级别),我们能够对数据库、对某个库中的一个文档、多个文档或者全部文档进行加密。通过加密的办法,使得系统中的各种数据的安全在三个面上得到保障。加密的办法有多种多样的,但是总离不开加密用的密钥。Domino提供了对称和非对称的两种加密机制。在对称的加密机制中,用户需要在阅读加密文档时具备密钥。我们着重讨论对数据库中的一般文档、对使用指定表单产生的所有文档、文档中的全部字段或部分字段使用指定密钥进行加密、对数据库进行选择算法的加密以及指定用户解密的方法和技术。

领域词汇抽取教程

git clone https://github.com/smoothnlp/DomainWords.git
cd DomainWords
python getDomainWords.py

SmoothNLP函数调用示例

这里的短语抽取过程,用到了SmoothNLP提供的extract_phrase函数,该函数使用词语本身及词语的上下文特征进行短语抽取。

from smoothnlp.algorithm.phrase import extract_phrase
extract_phrase(corpus,top_k,chunk_size,min_n,max_n,min_freq)

参数说明:

corpus:     必需,file open()、database connection或list
top_k:      float or int,表示短语抽取的比例或个数

extract_phrase函数可以基于大量文本实现高效的短语抽取。复旦新闻语料中不同领域文本的短语抽取用时统计如下:

数据领域 文件数 总字数 短语抽取用时
Economy 3201 2083,5291 2min 1s
Computer 2714 1625,7862 1min 31s
Enviornment 2435 1294,4809 1min 11s
Sports 2507 1136,6098 1min 26s
Art 1482 1054,7150 1min 1s
Agriculture 2043 1027,1244 1min 1s
Politics 2050 994,2158 54s
History 934 774,8028 38s
Space 1282 500,0878 24s
Education 120 15,1783 51ms
Law 103 14,9372 48ms
Philosophy 89 14,4040 41ms
Military 150 11,0303 32ms

领域词汇效果展示

经过我们的实验分析, 文本量较大(字符数量>10万)能有效抽取出领域词汇. 以下是多个领域的结果展示:

百度百科语料

经济 娱乐 艺术 社会 体育 历史 生活 科学 自然 地理 文化
证券交易所 角色设计 大提琴 旅游管理 鸟栖砂岩 嫪毐 羽绒服 尖锐湿疣 锥尾鹦鹉 骊靬 字辈
土地使用权 美术监督 德彪西 仲裁机构 曹薰铉 羽柴秀吉 鹌鹑蛋 儿茶酚胺 金刚鹦鹉 劳务输出 油纸伞
所有者权益 色彩设计 德沃夏克 残疾儿童 釜山偶像 节度使李 薇薇新娘 甲氨蝶呤 裳凤蝶 滑雪场 朦胧诗
基金份额 合作演员 广陵散 软件技术 李昌镐 皇帝拓跋 哇咧哇咧 迷走神经 噪鹛 奶牛养殖 掐丝珐琅
转移支付 题材电影 和声 决策咨询 瓦伦西亚 可汗 虾仁 四氢呋喃 秋海棠 劳动保障 实训
申购 特别篇 相遇 诉讼程序 八卦掌 汪精卫 悦诗风吟 萆薢 国家公园 音乐喷泉 医学杂志
股票交易 海贼王 解脱 投融资 切尔西 乘机 排骨 陀螺仪 鸊鷉 集镇 文库
再保险 普通攻击 黄耀明 健康管理 水晶宫 征讨 八角桂皮 苯妥英钠 拉丁学名 汽车配件 符号学
供给量 副本 华尔兹 抵押物 水户蜀葵 率部 床垫 阿昔洛韦 玫瑰鹦鹉 暂无资料 伦理学
商品流通 OVA 邬祯琳 实训基地 守门员 奏请 豆瓣酱 滚动轴承 寄居蟹 荔枝龙眼 本章小结
外汇交易 邓萃雯 布袋戏 紧急救援 柏林赫塔 尉迟迥 辣椒粉 环磷酰胺 信天翁 休闲观光 歪歪兔
报酬率 怪物 独立厂牌 预付账款 客场挑战 驸马都尉 萎凋 吲哚美辛 鼬鳚 交通状况 邮政编码
折扣 番外篇 洛天依 夫妻双方 杭州绿城 总理衙门 辣椒酱 硫唑嘌呤 柳莺 高标准 学习任务
卖出 音响监督 黄凯芹 合伙企业 租借加盟 监察御史 调味料 千斤顶 鸟翼凤蝶 餐饮住宿 数字资源
储蓄存款 袁姗姗 宇多田光 诊疗 磐田喜悦 领兵 冰糖 机器人 柯伊伯带 贫困户 学习目标
违约 急袭猛禽 平沙落雁 住房保障 圣洛伦索 薛延陀 郫县豆瓣 断路器 鹪鹩 蔬菜瓜果 澄泥砚
赎回 四郎探母 乌兰托娅 地铁站 执教 斐迪南 白砂糖 氯丙嗪 萘乙酸 实验小学 文献传递
交割 守护者 厮守 刑讯逼供 费耶诺德 上杉谦信 糯米粉 氨苄西林 枪乌贼 溪镇 电子资源
所得税 杀手 康塔塔 税务稽查 赞助商 御史中丞 茉莉花茶 皮肤黏膜 刈割 关帝庙 托尔斯泰
买入 吐槽 贺绿汀 报送 NCAA 花剌子模 鸡翅 蒸汽锅炉 亚科 休闲垂钓 剪纸艺术

复旦大学新闻语料

  • 经济
    经济

  • 计算机 计算机

  • 环境

  • 体育

  • 艺术
    艺术

  • 领域词汇获取方式: https://github.com/smoothnlp/DomainWords.git

注:

看到这里,还有彩蛋0 :)

如果您对NLP感兴趣, SmoothNLP目前招收:

  • (实习/全职) NLP算法工程师;
  • (实习) 研究型NLP算法实习生 - 发paper的那种哈

cv投递[email protected].

domainwords's People

Contributors

victorzhrn avatar yvette-wang avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.