GithubHelp home page GithubHelp logo

coronacrawler's Introduction

2020년 07월 20일부터 질병관리청 발표 양식이 변경되어 질병관리청 보도자료에서 공개되지 않는 정보는 0으로 표시되는 점 양해 부탁드립니다.

What is 'coronaCrawler'?

코로나19에 대한 국내 질병관리청 보도자료 데이터를 크롤링하는 도구 (Python 코드) 및 크롤링 결과 파일

수집하는 데이터:

  • 2020년 02월 10일 09시부터의 전국 확진자수, 격리해제수, 격리중 수, 사망자수, 검사합계, 검사중 수, 음성판정 수
  • 2020년 02월 26일 16시부터의 17개 지역별 확진자수
  • 2020년 03월 06일 00시부터의 17개 지역별 격리중 수, 격리해제 수, 사망자수

SOURCE OF DATA

질병관리청 보도자료 / https://www.cdc.go.kr/board/board.es?mid=a20501000000&bid=0015

crawling.py

[주의사항] 질병관리청 보도자료의 양식이 계속 일정하지 않은 경우, 최신 데이터를 크롤링한 결과가 질병관리청 자료의 데이터와 다를 수 있음

Required: Python 3.7.4, BeautifulSoup

질병관리청 보도자료 / https://www.cdc.go.kr/board/board.es?mid=a20501000000&bid=0015 를 크롤링하여 다음과 같은 형식의 result data로 나타냄.

  • 1열: 날짜시간 (yyMMddhh 형식 - 예시: 20031200은 2020년 03월 12일 00시를 의미)
  • 2~8열: 순서대로, 전국 기준 확진합계(=격리해제+격리중+사망), 격리해제, 격리중, 사망, 검사합계(=검사중+음성), 검사중, 음성판정 수
  • 9~26열: 지역별 격리중(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
  • 27~44열: 지역별 격리해제(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
  • 45~62열: 지역별 사망자수(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
  • 63~80열: 지역별 격리중+격리해제+사망자수의 합계(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)

데이터 유형별 제공 기간은 다음과 같음.

  • 전국 데이터(전국 확진자 수 등): 2020년 02월 10일 09시~
  • 지역별 확진자 수: 2020년 02월 26일 16시~
  • 지역별 격리중, 격리해제, 사망자 수: 2020년 03월 06일 00시~

list.txt

질병관리청으로부터 크롤링할 데이터가 있는 보도자료 링크 주소, 날짜시간(yyMMddhh) 형식을 한 줄로 하여 여러 개의 줄로 구성됨

result.txt

crawling.py 코드를 실행하여 list.txt 파일 내의 보도자료 링크 및 날짜시간(yyMMddhh) 데이터에 따라 보도자료를 크롤링한 것을 각 Row는 '#' 기호로, 한 Row 내의 각 Column은 공백 1칸으로 구분한 결과 파일

  • N은 null(제공되지 않는 데이터)을 의미

result_.txt

crawling.py 코드를 실행하여 list.txt 파일 내의 보도자료 링크 및 날짜시간(yyMMddhh) 데이터에 따라 보도자료를 크롤링한 것을 각 Row는 개행으로, 한 Row 내의 각 Column은 탭(tab)으로 구분한 결과 파일로, Microsoft Excel 등에 복사하여 자료를 정리하기에 용이함.

  • N은 null(제공되지 않는 데이터)을 의미

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.