GithubHelp home page GithubHelp logo

dhleeone / curse-detection-data Goto Github PK

View Code? Open in Web Editor NEW

This project forked from 2runo/curse-detection-data

0.0 0.0 0.0 503 KB

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

License: MIT License

curse-detection-data's Introduction

욕설 감지 데이터셋

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

데이터

일간베스트(일베), 오늘의 유머와 같은 각종 커뮤니티 사이트의 댓글에 대해 총 5,825문장을 분류했습니다.

수직선 기호( | )를 기준으로 좌측에는 댓글 내용, 우측에는 욕설 여부(0,1)가 기록되어 있습니다.

분류 기준

분류 기준은 다음과 같습니다.

단순 욕설, 인종 차별적인 말, 정치적 갈등을 조장하는 말, 성적·성차별적인 말, 타인을 비하하는 말, 그 외에 불쾌감을 주거나 욕설로 판단되는 말

  • 일베에서 흔히 말 끝에 '-노'를 붙이는 것은 고 노무현 대통령을 희화화하기 위한 의도이므로 욕설로 봐야 하지만 경상도 사투리 '-노'와 구분하기 어렵다는 점에서 다른 욕설 없이 '-노'만 붙인 문장들은 욕설로 분류하지 않았습니다.

  • '존맛', '개이득' 등의 말은 비속어를 포함하고 있으므로 욕설이라 볼 수 있으나 최근에는 강조의 의미로 흔히 쓰이고 있으므로 악의가 없는 단순 강조의 의미로 쓰였다고 판단될 경우 욕설로 분류하지 않았습니다.

  • 상황에 따라 욕일 수도 있고, 아닐 수도 있는 댓글은 최대한 비욕설로 구분했습니다.

curse-detection-data's People

Contributors

2runo avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.