GithubHelp home page GithubHelp logo

dblab_onehot's Introduction

DBLab_onehot

Repository for one-hot encoding module for healthcare system

dblab_onehot's People

Contributors

hsoo3844 avatar ochodus avatar qwqw82000 avatar sjh7535 avatar

Watchers

 avatar

dblab_onehot's Issues

피드벡 정리 2

서론 수정 없음

관련 연구 수정

  • 검색기반 챗봇과 생성기반 챗봇으로 분리하여 관련연구를 설명할 것

제안 방법 수정

  • 전제 부분에서 내용이 너무 구체적이다(90%등) 내용을 간소화할 것
  • 부분 집합이라는 용어가 이해하기 어렵다 따라서 적절한 언어로 수정할 것
    -> 파생증상,다양한 증상 조합 데이터
  • 3.2 워드 인덱스라는 부분또한 대체할 만한 용어가 있는지 찾아보고 수정 할 것
  • 은닉층이 두배~ 이 부분은 별로 좋은 어구가 아님 따라서 수정할 것
  • 본 논문에서는 그림 1의 MLP모델을 기준모델로 잡고 성능 비교를 위해 SVM(서포트 벡터 머신), NBC(나이브 베이지안 분류), DTC(의사 결정 트리)과 같은 기계학습 모델을 통해 성능을 비교 하고자 한다.(MLP설명 뺐음) -> 실험 파트로
  • 모델이 학습하는 데이터 중 증상이 3개 이하인 데이터는 부분집합을 활용하지 않았다. 따라서 실험과정에서 증상이 3개 이하인 질환을 모델이 잘 예측할 수 있는지를 확인하는 과정이 동반된다. -> 실험파트로

실험 및 분석 수정

  • Normal Accuracy, Normal F1 Score,Error Accuracy, Error F1 Score 더 좋은 용어로 설명
  • 표 3 각 모델의 예측성능 비교표의 결과를 subset이 4개 이상인 경우로 수정 할 것(subset이 4개로 제한이 결렸을뿐 3개 이하인 원래 데이터는 학습에 사용됨)
  • 표 4 의 사례를 3가지로 나눌것
  1. 4개 이상의 부분집합으로 실험 하였을때 정확한 증상 입력시 결과 값
  2. 전체 데이터로 실험 하였을때 정확한 증상 입력시 결과값
  3. 4개 미만의 데이터로 실험하였을때 정확한 증상 입력시 결과 값

결론 및 향후 연구 수정

  • 이 연구를 통하여 다양한 증상을 가지고 있는 질병에 대해 몇 번의 질문을 통해 해당 질병을 알아낼 수 있음을 확인할 수 있었다. 그리고 여러 모델 중 MLP 모델을 사용하는 것이 가장 정확도가 높은 것을 확인할 수 있었다.

-> 이부분은 결과값을 더 보고 다시 적을 것

  • 예측 성능에 비해 실제 성능이 떨어지는 것을 확인할 수 있었다.

-> 이 부분은 말을 좀 유하게 변경할 것

  • 향후에는 질병 예측 모델의 문답 횟수와 모델의 정확도가 어떠한 관계가 있는지를 규명하고 증상이 적은 데이터를 예측하기 위하여 새로운 파생 데이터를 어떻게 생성할지에 대한 연구를 이어나갈 계획이다.

-> 수정 할 것

s

최최최최최최최최최우선 과제

  1. 논문이 어렵다

-> 논문에서 문제점과 해결하고자 하는 바를 부각시켜서 논문이 읽기 쉽게 해준다.

  1. 포장이 부실하다

-> 다른 방식의 챗봇들을 신나라하게 까서 우리 논문을 부각시켜야 한다.

  1. 서론과 관련연구 제안방법을 합쳐라

-> 서론에 모든 것들을 합쳐서 한번에 설명을 할 것 하지만 우리의 제안이 부각되도록 논문이 구성되어야 한다.

질문

  1. 배경설명을 강화하는 것이 좋을까?

-> 서론에서 배경설명(최근 정신질환 환자가 늘어나고 있고 이로인해 문제점들이 많다 )등의 내용을 강화시킬까?

서론의 정리

  1. 정신질환은 흔한 질병이지만 환자가 정신병원을 가기까지 사용되는 코스트가 크다

  2. 조기발견이 중요하지만 정신병원을 안가서 만성이되어 치료가 어려워 지고 있다.

  3. 기존에는 다양한 방식의 챗봇을 사용하여 질환을 판단하고자 하는 시도가 있어왔다.

  • 생성 기반 챗봇: 주제에 맞지 않는 답변이 응답되어 사용자의 챗봇에 대한 신뢰성이 하락

  • 규칙 기반 챗봇: 입력되지 않은 데이터에 대해서는 대답 불가능 + 오타 허용하지 않음 + 시스템 구축 비용이 큼

  • 검색 기반 챗봇: 기존에는 확률적으로 높은 응답을 검색했을때 확률이 낮더라도 다른 답변들보다 확률이 높다면 의외의 답변을 한다는 단점

우리꺼: 본 논문에서는 검색기반 방식을 사용하지만 문답을 통해 질환의 예측 성능을 향상시켜 의외의 답변을 예측하는 기존 검색 기반 챗봇의 단점을 극복하려고 하였다.

노이즈(다른표현) -> 장점

피드벡 정리

서론 수정

  • 기본 오탈자 수정
  • 완만한 내용의 표현
  • "증상을 숨기려는" -> 다른 표현방식
  • 인용구 [5] 에 대하여 일치하는 논문인지를 확인하고 확인이 된다면 정확하게 몇페이지 인지 적을 것
    -> 삭제

관련 연구 수정

  • 애게 -> 에게
  • 와이사는 조언을 주는데 치료와는 무관하다고 하여 혼란이 있음
    -> 내용을 기술적 발전으로 대체
  • 관련 연구는 기술적 내용을 기술하고 기술적 차이점을 설명하는 방식으로 바꾸어야 한다.
    -> 규칙기반과 학습기반 모델을 설명하며 본 논문에서는 학습기반을 사용하지만 증상 완화가 아닌 문답을 통한 의심질환 파악이라는 점에서 다르다고 명시하였음

제안방법 수정

  • 제안 방법과 3.1 모델의 데이터 부분은 합쳐서 작성할 것 (3.1을 따로 나누지 말것)
  • 3.2 페딩 -> 패딩
  • 출력 데이터는 24개의 히든 레이어 통과한 후의 64차원으로 softmax 한 후의 데이터이다 -> 출력 은 히든 레이어 통과한 후의 softmax함수를 거쳐 64개의 질병으로 분류한다
  • MLP 사용시 24개의 히든 레이어를 사용하였는데 해당 구조의 이유가 있으면 좋을 것

(ex )다양한 층 구성을 해본 결과 좋은 성능을 보이는 MLP 구성

  • 표2의 출력 데이터는 삭제해도 좋음
  • SVM(서포트 벡터 머신), NBC(나이브 베이지안 분류), DTC(의사 결정 트리)같이 국내학회에 맞게 수정
  • 3개 이하의 데이터는 학습을 시키지 않은것처럼 논문이 읽혀짐 3개 이하 데이터는 부분집합을 활용하지 않았음을 명확히 명시할 것

실험 및 분석 수정

  • 표 3 각 모델의 예측성능 비교표의 N_Accuracy,A_Accuracy,N_F1 Score,A_F1 Score를 좀 더 직관적인 표현의 이름으로 수정
  • 첫번째와 두번째 사례를 분석하여 어떤 전제를 증명하기 위함인지 명확히 할 것
  • 표 3의 SVM의 단위를 %로 통일할 것
  • 전제를 정의하는 과정에서 전제 설명이 부족
  • "예측 성능이 가장 낮았던 NBC 모델이 2번의 문답으로 질병을 예측함을 확인할 수 있다"- 성급한 일반화임-> 횟수 비교 실험 설정 자체 오류 -> k개 출력하였을때 전체 문답 횟수의 평균을 적는것이 맞음
  • "모델의 정확도는 중요한 평가지표중 하나지만 본 논문에서는 문답을 통해 질환의 예측 확률을 더욱 높이는 것이 목표이기 때문에 동일한 질병을 예측하고자 하였을 때 문답의 횟수가 적으면서 정확하게 맞추는 모델이 좋은 모델이라고 할 수 있다." -> 문장을 나눠야함 이해가 어려움
  • 표의 k에 대한 설명이 있었으면 한다.
  • 표 4,5,6에 대한 대대적인 수정 필요 케이스가 한정적이고 k개를 출력하였을 때 전체 문답 횟수의 평균을 확인 할 수 있도록 바꿔야할 필요성

(ex)

Models MLP SVM NBC DTC
K 0.9 0.9 0.9 0.9
시행한 테스트 개수(64개)
정확도
n_means(맞춘 경우 문답 평균) ? ? ? ?

표 4와 표 6은 위의 표로 합칠 수 있어보임. 정확도가 낮은 이유를 서술하면서 증상이 3개 이하인 경우를 못맞춘다고 적으면 될 듯

표 5 비정상 입력시 모델별 문답횟수는 어떻게 해야할지 모르겠음

결론 및 향후 연구

  • 결론 부분 현재 성급한 일반화
  • 개별 실험의 결론은 실험 파트에 적을 것
  • 결론은 간단한 정리 + 핵심 성과 강조 + 한계점 + 향후연구로 깔끔하게 작성할 것

피드벡 정리3

승찬님 task

  • 질문의 알고리즘을 top1,top2,top3에서 가장 유니크한 값을 우선으로 질문을 하고 많약 유니크한 값이 많다면 top1,top2,top3에서 순서대로 추출하여 질문을 하는 알고리즘으로 수정
  • 4개 이상의 증상을 가지고 있는 경우에만 학습데이터로 사용하고 이 경우 파생되는 데이터의 부분집합은 4개이상이 된다. 이를 바탕으로 결과표를 작성할 것
  • 3개 이상의 증상을 가지고 있는 경우에만 학습데이터로 사용하고 이 경우 파생되는 데이터의 부분집합은 3개이상이 된다. 이를 바탕으로 결과표를 작성 할 것
  • 첫 질문이 한개, 두개,세개일때 각각의 성능표를 뽑고 비교할 수 있도록 정리하여 표로 작성 할 것
  • 최종적으로 나와야 하는 결과 표
  1. 첫번째 실험의 실험결과표 (사용자가 4개 이상의 증상을 인지하고 있을 경우)
  • 4개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 1의 결과표를 살펴 볼것

    • 3개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 1의 결과표를 살펴 볼것
  • (예시)

  • Models MLP SVM NB DTC
    정확한 입력 데이터 Accuracy 99.71 99.27 58.89 99.92
    F1 Score 99.68 99.59 68.86 99.92
    1회 입력 오류 데이터 Accuracy 99.33 66.64 58.89 99.92
    F1 Score 99.28 75.67 68.86 99.92

    두개 표를 만들어야 함을 유의할 것

  1. 두번째 실험의 실험결과표(사용자가 4개 미만의 증상을 인지하고 있을 경우)
  • 4개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 2의 결과표를 작성

    • 3개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 2의 결과표를 작성
  • (예시)

  • Models MLP SVM NBC DTC
    시행한 테스트 개수 각 질병 증상 수의 합 -- -- -- --
    첫입력 한개 정확도 78.8 - 2.76 8.76
    평균 문답 횟수 88.21 - 74.09 108.93
    첫입력 두개 정확도 78.8 - 2.76 8.76
    평균 문답 횟수 88.21 - 74.09 108.93
    첫입력 세개 정확도 78.8 - 2.76 8.76
    평균 문답 횟수 88.21 - 74.09 108.93
  1. 세번째 실험의 실험결과표(사용자가 4개 미만의 증상을 인지하면서 기저질환의 증상을 입력한 경우)
  • 4개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 3의 결과표를 작성
    • 3개 이상의 증상을 가지고 있는 질환 데이터를 바탕으로 실험 3의 결과표를 작성
Models MLP SVM NBC DTC
시행한 테스트 개수 각 질병 증상 수의 합 -- -- -- --
첫입력 한개 정확도 54.49 - 0.21 24.06
평균 문답 횟수 73.41 - 14.0 118.77
첫입력 두개 정확도 54.49 - 0.21 24.06
평균 문답 횟수 73.41 - 14.0 118.77
첫입력 세개 정확도 54.49 - 0.21 24.06
평균 문답 횟수 73.41 - 14.0 118.77

논문 작성

데드 라인

  1. 한국 논문, 기사(한국의 경우와 외국의 경우가 다르므로)
  2. 명확하지 않은 논문은 참고 X
  3. 논문을 찾아도 없고 주장하고자 하는 바가 사회 통념적으로 인정되는 경우는 바로 사용
  4. 1시간 이상 고민하는 경우 제외

논문 배경

1. 정신 질환 환자가 매년 증가중

**근거: **http://www.mohw.go.kr/react/al/sal0301vw.jsp?PAR_MENU_ID=04&MENU_ID=0403&page=2&CONT_SEQ=368136

보건복지부의 2021.10.8 근거중심 정신의료서비스 정책개발을 위한 심포지엄

핵심 내용: 의료서비스를 이용한 환자 수는 2009년 206.7만 명에서 2019년 311.6만 명으로 증가하여 연평균 4.2%의 증가율

2-1. 정신질환자에 대한 선입견이 정신질환자에게 부정적인 역할을 미침

(**근거:**https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002212565)

핵심 내용: 정신 질환환자가 증가중인 현 한국의 상황에서 대다수의 한국인들은 본인에게 정신적 문제가 발생하여도 정신과에 대한 진료 기록이 남는다는 낙인 효과 때문에 방문하기를 꺼려한다

2-2. 정신과에 대한 선입견 및 정신 의료 서비스의 낮은 이용률
**근거:**https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002168977

핵심 내용 :정신의료 서비스의 낮은 이용률에 대한 이유는 여러 가지가 있을 수 있으나 사회 구성원이 가지는 정신질환에 대한 편견이 많은 영향을 주고 있다고 판단된다

**2-2-1 2021년 정신건강실태조사 결과 발표
**근거:**https://www.korea.kr/news/pressReleaseView.do?newsId=156488517

핵심 내용 : 2021년 기준, 정신질환에 대한 평생 유병률은 27.8%이다. 하지만 그에 반해 정신건강서비스 이용률은7.2%로 미국 43.1%(‘15년), 캐나다 46.5%(’14년), 호주 34.9%(‘09년)에 비해 낮은 수준

2-3. 부정적인 인식과 태도가 정신 질환자들에게 적시에 적절한 치료를 받지 못하게 하는 요소로 작용
**근거:**https://koreascience.kr/article/JAKO200910103442479.page

3. 정신질환은 초기에 발견하고 치료해야 효과가 좋지만, 사회적 편견으로 증 상을 숨기는 경향

근거: https://jknpa.org/pdf/10.4306/jknpa.2020.59.3.208

핵심 내용: 정신건강이해력이란 자신 혹은 타인의 증상을 정신질환의 증상으로 알아차리고 초기에 치료적 개입을 구하여 질환을 관리할 수 있는 능력. 이러한 능력이 한국에는 부족함

논문 배경 초안

서론의 배경: 정신 질환환자가 나날히 증가중[1]인 현 한국의 상황에서 대다수의 한국인들은 본인에게 정신적 문제가 발생하여도 정신과에 대한 진료 기록이 남는다는 낙인 효과 때문에 방문하기를 꺼려한다. [2] 정신질환은 초기에 발견하고 치료해야 효과가 좋지만, 사회적 편견으로 인해 증상을 숨기는 경향을 가지고 있다[3]

문제 정의

4. 정신 질환은 조기에 발견하고 치료하는 것이 중요한데, 사회적 편견으로 인해 병원을 찾는 과정에 긴 시간이 소요됨

근거: https://ir.ymlib.yonsei.ac.kr/bitstream/22282913/123677/1/T009868.pdf

핵심 내용:정신과 치료를 받기까지 소요된 시간은 27.4%가 1년 이상이 걸렸다.

5. 초기 진단의 중요성
**근거:**https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002117928
조기에 판단되면 덜 침습적이며 효과적인 치료를 할 수 있게 해준다. 조기 대응은 조현병 발병을 예방할 수 있으며, 인지 행동 치료에 대해 예방되지 않더라도 미뤄질 수 있다

6. 환자들이 장애에 대한 자기인식을 하는 것은 중요하다

**근거:**https://www.dbpia.co.kr/pdf/pdfView.do?nodeId=NODE10479021&googleIPSandBox=false&mark=0&useDate=&ipRange=false&accessgl=Y&language=ko_KR&hasTopBanner=true

핵심 내용:조현병 환자에서 장애에 대한 자기인식과 병식의 연관성

문제 정의 초안

서론의 문제 정의: 이러한 환경 속에서 사람들은 병원을 찾게 되기까지의 과정에 시간이 많이 들고 이로인하여 병세가 악화되는 경우가 많다[3]. 초기 진단은 효과적인 치료를 할 수 있으며, 그 예로 조현병의 발병 예방 및 인지 행동 치료를 통해 미뤄질 수 있다.[4] 환자들이 본인의 증상을 인식하고, 어떤 정신의학적 문제가 발생 가능한지에 대한 인식이 필요하기 때문에[5] 본 논문에서는 정신질환의 증상을 입력하면 그에 따른 질환을 예측하는 인공지능 모델을 제작하고자 한다.

기존 시스템과의 차이

  1. [Wysa - Everyday Mental Health](https://www.wysa.io/)

(초기 화면)

image-20220915203650514

(초기화면2)

image-20220915203709681

본 챗봇은 특정 상황에 대한 이야기를 함께 함으로써 대화의 도움이 되는 방법을 소개시켜준다.

image-20220915204746852

위와 같은 상황이 어떤 상황인지를 환자에게 추측하도록 하고 이에대한 해결 방법을 제시한다.

image-20220915204827871

기존 시스템과의 차이 초안

기존은 챗봇과의 상담을 통해 마음을 진정시켜주거나 사회화를 도와주는 방식의 시스템[5]이다. 이 방식은 환자의 심리를 안정시켜 줄 수는 있겠으나 근본적인 병의 치료에는 크게 영향을 주지 않는다면 본 논문은 환자가 자신의 질환을 명확하게 인식하게 하는것이 목표이다. 마치 병원에서 진단을 받는것과 같지만 시간과 인력을 투입하지 않고도 대략적인 병의 진단을 할 수 있기 때문에 유용할 것이다.

관련 연구들

  1. 딥러닝 자동 분류 모델을 위한 공황장애 소셜미디어 코퍼스 구축 및 분석

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002731142

아직 진단을 받지 않은 잠재적 환자들을 위한 연구. 솔직한 이야기를 바탕으로 파악하기 위해 sns를 이용하기로 함.
공황장애에 대해 딥러닝 모델에 학습시켜 자동 분류 모델을 제작

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.