GithubHelp home page GithubHelp logo

chinese_nlp's Introduction

#一些汉语言处理的东西

segment 汉语言分词

主题分类

LSI/LDA信息检索

  • 原理:SVD奇异值分解
  • 依赖:gensim
  • TODO:
  • 原理比较简单,只有SVD,检索结果还是可以的,但是需要调整topic的参数,工程上以200-500为佳。

情感分析

贝叶斯分类

  • 用C/C++重新实现后,发现内存占用率和运算速度比Python要块很多。
  • 通过Sogou的训练语料发现,10个分类下,10000特征词的分类准确率在75%左右,而在京东抓取的好评/差评语料训练后,测试分类精度达到91%左右。

最大熵分类器

基于CRF的(NER命名实体识别)

  • 参考:CRFSuite Manual
  • TODO:
    • 人家已经理论分析了CRF的效果会比贝叶斯和马尔科夫模型要好,而且CRF当前最主要的应用就是NLP的分词、序列标注和命名实体识别了。个人测试觉得,算法的收敛的速度很慢,所以模型只迭代训练了五百次。此外,现在的算法都十分的成熟了,而真正的壁垒在于数据,国内的开发比较的保守,公开的标注语料少之又少。人民日报的标注语料公开的部分不多,而且文字比较的书面和守旧,效果一般。
    • 例子

    还得从20年前中B-ORG 共I-ORG 召开十二大前夕说起。1982年6月27日至29日的中B-ORG 共I-ORG 十一届六中全会期间,印发了陈B-PER 云I-PER 撰写的《提拔培养中青年干部是当务之急》一文和他主持起草的《关于老干部离休退休问题座谈会纪要》。会后,部分与会人员留下来参加各省市自B-ORG 治I-ORG 区I-ORG 党I-ORG 委I-ORG 书记座谈会。7月2日,陈B-PER 云I-PER 在座谈会上讲话,强调干部队伍青黄不接的客观存在,不无担忧地说:提五十岁左右的人可能争论少些,提40岁左右的人,争论、怀疑会很多。提40岁以下的人,怀疑、争论会更多。既然如此,为什么“纪要”还是“特别写提四十岁以下的人这一句?”他自问自答:一是年富力强。二是有意识地培养。经过3年、5年、10年,有意识地培养,选出好的人。三是40岁以下的人中间有人才。四是只有40岁以下的人,才了解“**”初期青年人当时的想法和表

基于同义词词林的消歧实现:

  • 原理:基于同义词词林的语料库反查,设定各个意项的评分。
  • 结果:不知道是这种方式的原因,还是评分函数优化的不合理,在标注的语料下,准确度大概44%左右。

深度学习部分

依赖和使用的深度学习库

  • theano (CUDA optional)
  • keras
  • genism

深度学习分词

中东 和平 的 建设者 、 中东 发展 的 推动 者 、 中东 工业化 的 助 推 者 、 中东 稳定 的 支持者 、 中东 民心 交融 的 合作 伙伴 —— 习近 平 主席 在 演讲 中 为 **-中东关系 发展 指明 的 方向 , 切合 地区 实际 情况 , 照顾 地区 国家 关切 , 为 摆 在 国际 社会 面前 的 “ 中东 之 问 ” 给 出 了 ** 的 答案 。 2014年6 月 , 习近 平在 中 阿 合作 论坛 北京 部长 级 会议 上 提出 , 中 阿 共建 “ 一带 一路 ” , 构建 以 能源 合作 为 主轴 , 以 基础 设施 建设 、 贸易 和 投资 便利 化 为 两翼 , 以 核能 、 航天 卫星 、 新 能源 三 大 高 新 领域 为 新 的 突破口 的 “ 1 + 2 + 3 ” 合作 格局 。 在 此次 落马 的 16 人 里面 , 级别 最高 的 是 连 城县委 原 书记 江国河 。 履历 显示 , 江 国河 196 3年 出生 , 龙岩市 永定县 高头乡 人 。 被 调查 时 , 他 已 在 福建省 能源集团有限责任 公司 董事 、 纪委 书记 的 位子 上 干 了 两年 。 机智堂 是 新 浪 手机 推出 的 新 栏目 , 风趣 幽默 是 我们 的 基调 , 直白 简单 地 普及 手机 技术 知识 是 我们 的 目的 。 我们 谈 手机 , 也 谈 手 机 圈 的 有 趣事 , 每月 定期 更新 , 搞 机 爱好者 们 千万 不 能 错过 。

RNN-LSTM自动文本生成

chinese_nlp's People

Contributors

taozhijiang avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese_nlp's Issues

confusion about llda

Do you know why it inserts a “common” label in the labelset? what is its ("common") functionality?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.