Comments (2)
F-Score를 측정하려면 정답 코퍼스가 있어야 할텐데, 아마도 세종 코퍼스가 가장 적합할 것 같습니다. 기존에 발표된 많은 논문들이 이 세종 코퍼스에서 실험하여 성능을 발표하였습니다.
그러나 세종 코퍼스는 오류가 많고 아마도 연구자들마다 각자 오류를 수정하여 실험을 했을 것입니다. 리더보드 같은 것이 있어서 모두 같은 테스트 데이터로 공정하게 비교하면 좋겠지만 그렇게까지는 하지 않는 것으로 알고 있습니다.
그래서 제 생각에 데이터의 다양성 및 데이터의 오류로 인해 1~2% 정도는 성능에 오차가 있을 것으로 생각합니다. 많은 논문들이 약 97~98% 정도의 성능을 발표하고 있습니다.
khaiii는 large 모델이 97% 이상, base 모델이 95% 이상으로 "맞추고"있습니다. 이는 모델 크기를 키우면 얼마든지 높일 수 있는 수치라 생각하지만 그만큼 속도가 많이 느려질 것으로 생각하기 때문에 무작정 정확도를 추구하지는 않습니다.
또한 세종 코퍼스에서의 성능이 현실 세계에서의 성능을 말하지 않습니다. khaiii가 97%의 성능이 나온다고 하더라도, 이미 많이 사용하고 튜닝된 다른 형태소 분석기들과 비교하면 아직 갈 길이 멀다고 생각합니다.
from khaiii.
@krikit 자세한 설명 감사드립니다!
from khaiii.
Related Issues (20)
- C++ 의존 라이브러리 버전 업
- cmake 오류 관련 (Ubuntu 20.04 LTS) HOT 2
- M1 MacOS-x86_64 지원 관련 HOT 1
- 설치 완료 후 ctest에서 오류 HOT 7
- [Ubuntu] ImportError: No module named khaiii HOT 1
- khaiii 사전 추가시 오류 HOT 1
- Khaiii 0.5 버전 출시는 언제쯤 이뤄질까요? HOT 1
- Ubuntu 22.04 에서 빌드 HOT 2
- make resource 후, share/khaiii 디렉토리 생기지 않음 HOT 1
- 빌드에서 문제 HOT 2
- 인물검색 가이드 요청드립니다. HOT 2
- cmake .. 오류 질문드립니다. HOT 10
- dockerfile build 오류 HOT 2
- 설치시 에러가 발생합니다. HOT 6
- (colab) 기분석 사전 재빌드 관련 질문드립니다. HOT 7
- cnn 모델 학습 과정 문의 HOT 4
- 형태소 분석 결과 저장 HOT 3
- cmake error (hunter) HOT 4
- python library error HOT 1
- PyTorch 1.7.1 버전 학습 지원 HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from khaiii.