GithubHelp home page GithubHelp logo

project_2016_1's Introduction

▶연구 제목: 텍스트 추출과 파일 검색(Text extraction and File search)
▶연구 내용: 서버의 특정 디렉토리에 hwp, pdf, ppt, word 등의 파일을 업로드하면, 업로드 된 파일에서 단어를 추출하여 저장한다. 저장된 단어들을 검색할 수 있으며, 검색되는 단어들을 기반으로 한 파일 검색 시스템을 제공한다. Python으로 진행될 예정이며, 단어 추출, 저장, 검색 입력, 비교, 결정, 결과 출력 등의 기능 등이 필요하다. 추출된 단어들은 Hadoop에 저장되며, GUI 인터페이스를 구현하여 검색 엔진을 제공할 예정이다.
데이터 분석과 처리에 효과적인 Pandas 모듈과 Python 자연어 처리에 대한 이해가 필요하며, 이는 관련 서적들과 해당 모듈과 파이썬 공식 사이트에 게재된 자료를 참고한다.
3월 2일부터 시작하여 약 16주간 진행될 것이며, 진행 상황과 관련 코드, 자료들은 Git과 Git Book에 업로드한다.
▶참고 -문서의 텍스트 추출:
https://charsyam.wordpress.com/2013/10/27/%EC%9E%85-%EA%B0%9C%EB%B0%9C-%EC%98%A4%ED%94%88-%EC%86%8C%EC%8A%A4%EB%A1%9C-%EB%AC%B8%EC%84%9C%EC%9D%98-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%B6%94%EC%B6%9C-%EC%84%9C%EB%B9%84%EC%8A%A4-%EB%A7%8C%EB%93%A4/
-Python pandas module:
http://pandas.pydata.org/pandas-docs/version/0.15.2/tutorials.html
pandas DataFrame (단어 저장에 해당 구조가 유용하게 쓰일 것으로 예상)
http://pinkwink.kr/735
-Python file upload
https://pypi.python.org/pypi/gp.fileupload/0.8
http://stackoverflow.com/questions/12166158/upload-a-file-with-python
-Hadoop과 Python
http://www.slideshare.net/DonaldMiner/hadoop-with-python
-Django의 사용은 미정

project_2016_1's People

Contributors

trivi9ri avatar

Watchers

 avatar

Forkers

jeongseongyo

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.