GithubHelp home page GithubHelp logo

infosearch's Introduction

InfoSearch


  • 기간 : 2020.03 ~ 2020.04
  • 솔트룩스 인턴 / 정보검색 과제

  1. 첨부된 텍스트 파일의 내용을 입력된 특정단어를 검색하여 문서별 TF-IDF 스코어를 출력하는 문제
  • 오픈 라이브러리 및 기타 오픈 소스 사용X

  • 출력 값은 각 문서별 TF-IDF 스코어를 출력

  • Java Console 예시 :

    알파벳을 입력하세요 : A -> 입력문 예시

    A의 TF-IDF 스코어 -> 출력문 예시 (입력단어 -> "단어" : "빈도수")

    sample01.txt 0.0507

    sample02.txt 0.0169

    ...

  1. 첨부된 텍스트 파일의 내용을 기반으로 Word Co-occurence Matrix(네트워크)를 생성하여 입력된 특정 단어와 연관된 단어를 빈도수 순으로 출력하는 문제
  • 오픈 라이브러리 및 기타 오픈 소스는 사용X

  • word co-occurrence 의 가중치는 기본적으로 1

  • window size는 설정이 가능하게 개발

  • 출력 값은 입력된 알파벳과 co-occurrence가 높은 알파벳 순으로 출력

  • Java Console 예시 :

    알파벳을 입력하세요 : A -> 입력문 예시

    A -> E:11, T:9, R:6, N:5 ... -> 출력문 예시 (입력단어 -> "단어":"빈도수")

  1. 첨부된 텍스트 파일의 내용을 기반으로 문서와 문서의 유사도를 구하는 문제, 문서의 특성벡터를 알파벳을 기준으로 구성하고 특성벡터를 기준으로 문서 간 유사도를 도출한다. 유사도 스코어는 Cosine Similarity(코사인 유사도) 기법을 사용한다. 도출한 유사도는 Document Similarity Matrix를 생성하여, 입력된 특정 문서파일과 유사도가 높은 문서파일 순으로 출력하는 문제.
  • 오픈 라이브러리 및 기타 오픈 소스는 사용X

  • 특성벡터의 가중치는 기본적으로 1

  • 출력 값은 입력된 문서와 유사도가 높은 문서 순으로 출력함

  • Java Console 예시 :

    문서 이름을 입력하세요 : sample01.data -> 입력문 예시

    sample01.data -> sample05.data:0.971, sample07.data:0.857, ...

    -> 출력문 예시 (입력문서 -> "문서" : "유사도")

  1. 첨부된 텍스트 파일의 내용을 기반으로 각 문서의 특성을 추출, 특성벡터를 기준으로 문서의 유사도를 구하는 문제. 문서의 특성은 문서가 포함한 키워드의 TF-IDF 스코어를 계산하여 상위 5개만 사용한다. (TF-IDF 스코어가 같을 시 키워드를 내림차순으로 정렬하여 선택) 각 문서의 유사도는 Cosine Similarity를 사용하되, 특성벡터의 스코어는 1, 0이 아닌 TF-IDF 스코어를 사용
  • 오픈 라이브러리 및 기타 오픈 소스는 사용 X
  • 특성벡터의 스코어는 TF-IDF 값을 사용
  • 출력 값은 입력된 문서와 유사도가 높은 문서 순으로 출력
  1. 4번까지의 문제를 통합, 새로운 텍스트 파일을 추가하여 응용하는 문제. 입력된 번호와 텍스트를 기반으로 TF-IDF, Word Co-occurrence, Cosine Similarity를 출력하는 문제. 입력번호에 따른 출력사항은 다음과 가다

    참조 )

    Console > 입력하세요 : 1 텍스트(알파벳)

    : 입력된 텍스트의 TF-IDF를 텍스트 파일별로 출력 (1번 문제)

    Console > 입력하세요 : 2 텍스트(알파벳)

    : 입력된 텍스트의 Co-occurrence를 빈도순으로 출력 (2번 문제)

    Console > 입력하세요 : 3 파일명

    : 입력된 파일과 코사인 유사도가 높은 순으로 파일 출력 (4번 문제)

    Console > 입력하세요 : 4 디렉토리 경로

    : 입력된 경로의 파일을 추가하여 TF-IDF, Co-occurrence, Cosine Similarity를 다시 계산하여 저장하고 입력을 대기

    Console > 입력하세요 : 5

    : 숫자 5만 입력되었을 시는 프로그램 종료.

  • 오픈 라이브러리 및 기타 오픈소스는 사용X
  • 첨부파일 1 : sample01.data, sample02.data, sample03.data, sample04.data, sample05.data, sample06.data, sample07.data
  • 첨부파일 2 : sample08.data, sample09.data, sample10.data

infosearch's People

Contributors

ljh415 avatar

Stargazers

Daikoku avatar

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.