patternsearch's People
Forkers
kjhofonepatternsearch's Issues
영어 여러문장일 경우.
한문장으로만 할 것인가?
로그 문제와 예외처리
로그를 만들고. 예외시 예외 처리를 하되 어디서 어떻게 났는지 정확히 알아 볼 수 있도록 하자.
새로운 점수 매기는 컴포넌트 개발 in Solr
동사 추출을 모듈화
루비의 모듈 공부
Gem
Make a gem to use easily.
rake benchmark
동사 추출.
Java heap error!
../data/example/0045.ptxt
potter stemmer
동사를 추출후 stemming 하기.
만들어진 패턴들에게 점수주기
Scoring 공부
필드와 필드의 값등의 웨이트를 어떤식으로 계산하여 최종 결과를 얻는가?
solr에 동사 필드 추가
Check when untokenizable!
파서에서 untokenizable를 콘솔에 뿌릴 때 현재 어떤식으로 덤프하는지 체크.
untokenizable를 캐치할 순 없는지?
ferret query search 알고리즘 공부
ferret에서 현재 제공하는 검색 방법과 우리가 적용할 검색 방법을 생각해봐야함.
아마도 inverted list를 형태소 별로 만들고 쿼리를 다시 형태소 분석하고 쿼리의 형태소가 가장 많이 나타나는 것을 검색하는 것 같음.
정확히 공부 후 토론해봐야 할 문제
Serialize parsed patterns to reduce time of reindexing.
solr 공부
ferret 을 대체할 엔터프라이즈 자바 서버 어플리케이션
필드 설정: schema.xml
트리를 여러개의 패턴으로 만들기.
트리의 리프들로 패턴을 만들자.
리프를 없애면서 만들자.
Simple index 만들기
문법 구조는 신경쓰지 말고 인덱스를 만들고 검색을 해보자!!
완성된 Sandbox를 만들어 보자!
알수 없는 문자 문제.
주로 161, 166, 170
예외를 캐치할 수 없음.
ferret field 정의
ferret에 필드를 정의하고 각 필드에는 어떤 문장의 정보가 들어갈 것인지 결정해야함.
동사 부분에 대한 쿼리 작성기 만들기
스코어링 공부
ferret에서 검색된 결과를 순위 매기는데 알고리즘이 있으며 그것에 대한 공부를 해야함.
Web user interface
rails를 사용하여 구현.
아주 간단한 화면.
말뭉치 인코딩 문제
현재 모든 시스템을 유니코드로 할 생각. 하지만 말뭉치의 글 내용은 EUC-KR 인듯. 그리고 소스 코드 역시 유니 코드로 할것이기 때문에 (맥이 유니코드라서) 만약에 한글로 코맨팅을 한다면 글이 깨질듯.
이것에 대한 토론이 필요함. 하지만 대세는 유니코드이기 때문에 현재 파싱하는 부분에서 한글 인코딩을 잘 관리해야함.
Stanford PoS tagger 출력 확인 및 공부
패턴 통계 내기
sqlite에 저장하고 시각화하기.
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.