2020년 07월 20일부터 질병관리청 발표 양식이 변경되어 질병관리청 보도자료에서 공개되지 않는 정보는 0으로 표시되는 점 양해 부탁드립니다.
코로나19에 대한 국내 질병관리청 보도자료 데이터를 크롤링하는 도구 (Python 코드) 및 크롤링 결과 파일
수집하는 데이터:
- 2020년 02월 10일 09시부터의 전국 확진자수, 격리해제수, 격리중 수, 사망자수, 검사합계, 검사중 수, 음성판정 수
- 2020년 02월 26일 16시부터의 17개 지역별 확진자수
- 2020년 03월 06일 00시부터의 17개 지역별 격리중 수, 격리해제 수, 사망자수
질병관리청 보도자료 / https://www.cdc.go.kr/board/board.es?mid=a20501000000&bid=0015
[주의사항] 질병관리청 보도자료의 양식이 계속 일정하지 않은 경우, 최신 데이터를 크롤링한 결과가 질병관리청 자료의 데이터와 다를 수 있음
Required: Python 3.7.4, BeautifulSoup
질병관리청 보도자료 / https://www.cdc.go.kr/board/board.es?mid=a20501000000&bid=0015 를 크롤링하여 다음과 같은 형식의 result data로 나타냄.
- 1열: 날짜시간 (yyMMddhh 형식 - 예시: 20031200은 2020년 03월 12일 00시를 의미)
- 2~8열: 순서대로, 전국 기준 확진합계(=격리해제+격리중+사망), 격리해제, 격리중, 사망, 검사합계(=검사중+음성), 검사중, 음성판정 수
- 9~26열: 지역별 격리중(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
- 27~44열: 지역별 격리해제(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
- 45~62열: 지역별 사망자수(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
- 63~80열: 지역별 격리중+격리해제+사망자수의 합계(순서: 전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주)
데이터 유형별 제공 기간은 다음과 같음.
- 전국 데이터(전국 확진자 수 등): 2020년 02월 10일 09시~
- 지역별 확진자 수: 2020년 02월 26일 16시~
- 지역별 격리중, 격리해제, 사망자 수: 2020년 03월 06일 00시~
질병관리청으로부터 크롤링할 데이터가 있는 보도자료 링크 주소, 날짜시간(yyMMddhh) 형식을 한 줄로 하여 여러 개의 줄로 구성됨
crawling.py 코드를 실행하여 list.txt 파일 내의 보도자료 링크 및 날짜시간(yyMMddhh) 데이터에 따라 보도자료를 크롤링한 것을 각 Row는 '#' 기호로, 한 Row 내의 각 Column은 공백 1칸으로 구분한 결과 파일
- N은 null(제공되지 않는 데이터)을 의미
crawling.py 코드를 실행하여 list.txt 파일 내의 보도자료 링크 및 날짜시간(yyMMddhh) 데이터에 따라 보도자료를 크롤링한 것을 각 Row는 개행으로, 한 Row 내의 각 Column은 탭(tab)으로 구분한 결과 파일로, Microsoft Excel 등에 복사하여 자료를 정리하기에 용이함.
- N은 null(제공되지 않는 데이터)을 의미