DC์ธ์ฌ์ด๋์ 15000์ฌ๊ฐ์ ๋๊ธ๋ฐ์ดํฐ์
15,000 comment data parsed in the Korean community
Project Date ๐ 2020-06-20
์ ์ฒด ๋ฐ์ดํฐ์ค 18%์ ๋์ ์ ์ฑ๋๊ธ์ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ์ ์ ๋๋ค(2-way ๊ธฐ์ค)
Class | Description |
---|---|
Text | ์๋ฌธ ํ ์คํธ์ ๋๋ค |
Malignant index | ์ ์ฑ์ง์ ์ ๋๋ค 0~2์ ๊ฐ์ผ๋ก ๋ถ์ฌ๋์ด ์์ต๋๋ค |
Malignant index | Description |
---|---|
0 | ๊ฒ์๋์ด๋ ์ ํ ๋ฌธ์ ๊ฐ ์๋ ๋๊ธ ์ ๋๋ค. |
1 | ๋น์์ด๋ฅผ ์ฌ์ฉํ์ง ์์์ง๋ง ์ ์ฑ๋๊ธ์ด๋ผ ํ๋จํ๊ธฐ์ ๋ถ์กฑํจ์ด ์๋ ๋๊ธ ์ ๋๋ค. |
2 | ๋น์์ด๋ฅผ ์ฌ์ฉํ๊ณ ๋ช ๋ฐฑํ๊ฒ ์ ์ฑ๋๊ธ์ด๋ผ ํ๋จ์ด ๊ฐ๋ฅํ ๋๊ธ์ ๋๋ค |
3-way Classification๋ก ์์ฑ๋์ด ์์ง๋ง ํ์ต๊ฒฐ๊ณผ Binary Classification ํํ๋ก ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉด ์ ํ๋๊ฐ ์ ๋์ค๊ธฐ ๋๋ฌธ์ ์๋์์ ์ค๋ช ํ๋ ํจ์๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ๊ฐ๊ณตํ์ฌ ์ฌ์ฉํ๋๊ฒ์ ์ถ์ฒ๋๋ฆฝ๋๋ค
malicious index๋ฅผ Binary Classification ํํ๋ก ๋ณ๊ฒฝํ๋ ๊ธฐ์ค์ ๋๊ฐ์ง์ ๋๋ค.
def Row_rework_label(data): #Binary Classification (Low level)
count = 0
for i in data:
if(i==2):
data[count] = 1
elif(i==1):
data[count] = 0
count = count+1
return data
malicious index๊ฐ 1์ธ ๊ฒฝ์ฐ์ 0์ผ๋ก ์์ ํ๋, ๋ฎ์ ์๊ฒฉ๋๋ฅผ ๊ฐ์ง๋ ์์ ๋ฐฉ๋ฒ์ ๋๋ค
def High_rework_label(data): #Binary Classification ํตํฉ (high level)
count = 0
for i in data:
if(i==2):
data[count] = 1
count = count+1
return data
malicious index๊ฐ 1์ธ ๊ฒฝ์ฐ์ 0์ผ๋ก ์์ ํ๋, ๋์ ์๊ฒฉ๋๋ฅผ ๊ฐ์ง๋ ์์ ๋ฐฉ๋ฒ์ ๋๋ค
dataset_csv = pd.read_csv('DCcomment.csv', names=['Text', 'label'])
X, Y = dataset_csv['Text'].values, dataset_csv['label'].values
#Y = High_rework_label(Y)
#Y = Row_rework_label(Y)