▶연구 제목: 텍스트 추출과 파일 검색(Text extraction and File search)
▶연구 내용: 서버의 특정 디렉토리에 hwp, pdf, ppt, word 등의 파일을 업로드하면, 업로드 된 파일에서 단어를 추출하여 저장한다. 저장된 단어들을 검색할 수 있으며, 검색되는 단어들을 기반으로 한 파일 검색 시스템을 제공한다. Python으로 진행될 예정이며, 단어 추출, 저장, 검색 입력, 비교, 결정, 결과 출력 등의 기능 등이 필요하다. 추출된 단어들은 Hadoop에 저장되며, GUI 인터페이스를 구현하여 검색 엔진을 제공할 예정이다.
데이터 분석과 처리에 효과적인 Pandas 모듈과 Python 자연어 처리에 대한 이해가 필요하며, 이는 관련 서적들과 해당 모듈과 파이썬 공식 사이트에 게재된 자료를 참고한다.
3월 2일부터 시작하여 약 16주간 진행될 것이며, 진행 상황과 관련 코드, 자료들은 Git과 Git Book에 업로드한다.
▶참고
-문서의 텍스트 추출:
https://charsyam.wordpress.com/2013/10/27/%EC%9E%85-%EA%B0%9C%EB%B0%9C-%EC%98%A4%ED%94%88-%EC%86%8C%EC%8A%A4%EB%A1%9C-%EB%AC%B8%EC%84%9C%EC%9D%98-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%B6%94%EC%B6%9C-%EC%84%9C%EB%B9%84%EC%8A%A4-%EB%A7%8C%EB%93%A4/
-Python pandas module:
http://pandas.pydata.org/pandas-docs/version/0.15.2/tutorials.html
pandas DataFrame (단어 저장에 해당 구조가 유용하게 쓰일 것으로 예상)
http://pinkwink.kr/735
-Python file upload
https://pypi.python.org/pypi/gp.fileupload/0.8
http://stackoverflow.com/questions/12166158/upload-a-file-with-python
-Hadoop과 Python
http://www.slideshare.net/DonaldMiner/hadoop-with-python
-Django의 사용은 미정
project_2016_1's Introduction
project_2016_1's People
Forkers
jeongseongyoRecommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.