GithubHelp home page GithubHelp logo

krikit / annie Goto Github PK

View Code? Open in Web Editor NEW
57.0 57.0 15.0 150.81 MB

2016 국어 정보 처리 시스템 - 지정 분야: 개체명 인식 시스템 개발 및 적용

Python 16.80% Jupyter Notebook 81.88% Shell 1.32%

annie's People

Contributors

krikit avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

annie's Issues

인명 분류기

3음절이고 품사가 NNP인 단일 형태소의 인명 여부를 word2vec과 svm을 이용해 분류기를 만든다.

기본 자질
현재 형태소를 포함 좌/우 3개씩 총 7개의 형태소 (50 * 7 = 350개의 자질)

라이센스문의

안녕하세요.

한국어 오픈소스 NER 을 찾다가 오게되었는데요.

혹시 라이센스 알수있을까요...

라이센스가 가능하다면 개조해서 업무에 사용가능할지 테스트 해보고 싶은데요.

감사합니다.

[개체명 인식 말뭉치]구글 드라이브 주소 부탁드리겠습니다.

메일로 문의를 주신 분이 계셔서 여러 분들과 공유해도 괜찮을 내용이라 이슈로 등록합니다.
아래는 메일 내용입니다.

안녕하세요. 선생님. 자연어처리 관련하여 공부하고 있는 학생입니다.
다름이 아니라 git에 올려주신 개체명 인식기를 실행해보고자 합니다.
개체명 인식용 데이터가 업로드 되어 있는 구글 드라이브 주소를 알 수 있을까요??
부탁드리겠습니다. 감사합니다.

베이스라인 시스템

제공된 gazette 파일만 이용하여 단순 매칭에 의해 개체명을 태깅하는 베이스라인 시스템 작성

자질 고도화

  • lemma (L-2 ~ L+2)
    • lemma bigram: (-2, -1), (-1, 0), (0, +1), (+1, +2), (-1, +1)
  • pos tag (T-2 ~ T+2)
    • tag bigram: (-2, -1), (-1, 0), (0, +1), (+1, +2), (-1, +1)
    • tag trigram: (-2, -1, 0), (-1, 0, +1), (0, +1, +2)
  • dictionary match tag (D-2 ~ D+2)
    • dic bigram: (-2, -1), (-1, 0), (0, +1), (+1, +2), (-1, +1)
    • dic trigram: (-2, -1, 0), (-1, 0, +1), (0, +1, +2)
  • dic with length (D-2 ~ D+2)
    • 예: D-2|N-2=B-PS|3
  • prefix with length (P-2 ~ P+2, PP-2 ~ PP+2)
    • 예: P-2|N-2=김|3
  • suffix with length (S-2 ~ S+2, SS-2 ~ SS+2)
    • 예: S+1|N+1=의|1
  • lexical form (F-2 ~ F+2)
    • 한글 -> 가
    • 한자 -> 漢
    • 영문 -> A
    • 숫자 -> 0
    • 기호 -> .
  • begin/end of sentence(BOS/EOS)
  • begin/middle/end of word(BOW/MOW/EOW)
  • prev word's last lemma(PWLL), next word's first lemma(NWFL), bigram

dev.json파일을 받을 수 있을까요??

안녕하세요 :)

공개하신 개체명 인식기를 실행해보고 싶은데요,
실행 예에서 지정한 dev.json 파일을 못 찾아서 죄송하게도 이렇게 issue를 올리게 되었습니다.
혹시 포멧이라도 알려주시면 한번 실행해 보고 싶은데요....
받을 수 있을까요?? 아니면... 제가 잘 못 찾은 걸까요;;;

질문있습니다.

안녕하세요. 귀하의 annie의 배포를 감사드립니다.
질문이 있는데요, json 형식을 어떻게 만들어야 하나요?
json 형식의 예시를 알려주셨으면 좋겠습니다.

좋은 하루 되세요.

gazette 조회 개선

As Is:
형태소를 조합하여 gazette 조회를 위한 키를 생성할 때 중간에 공백을 무조건 삽입

To Be:
무조건 삽입하지 않고 어절 경계에만 공백을 삽입하도록 개선

word2vec 파일을 읽어들여 사전 생성

word2vec 파일(wikiCorpus_word2vector.hr)을 읽어들여 검색이 빠른 사전 구조로 저장
OOV에 대응하기 위해 품사별로 벡터를 모아서 평균 값을 저장

특이점

  • 숫자는 NUM/SN으로 변형
  • 문장의 끝은 , 문장의 시작은? => 로 통일
  • 가끔 두 형태소가 떡이된 키가 존재 (예: ./SFNUM/SN, ./SF//SP) => 이론적으로 /가 두번 나오는 경우는 //SP 밖에 없으니 나머지는 버린다.

어떻게 사용하나요?

한국어 유일의 NER 모듈이라 할수있습니다.
그에비해 documentation이 부족하고, 어떻게 자신의 프로젝트에 적용시킬수있는지에 대한 내용이 없습니다.

인명 태거

svm을 이용한 인명 분류기를 적용하여 태깅하는 스크립트 작성

인명(PS)에 대한 통계 추출

학습 코퍼스에서 인명(PS)에 대해 아래 분포(히스토그램)를 추출

  1. 형태소 갯수
  2. 음절 길이
  3. 태그 조합(여러 형태소인 경우 모든 태그를 더함)
  4. 첫 음절

개체명 코퍼스 공유

안녕하세요. annie를 사용해보고 싶은데 아쉽게도 형식에 맞는 마땅한 코퍼스를 찾지 못해서 문의드립니다.

혹시 dev.json/train.json 에 들어갈 수 있는 국립국어원 개체명 코퍼스 혹은 기타 개체명 코퍼스를 공유해주실 수 있으실까요?

감사합니다.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.