클래스 불균형 데이터의 분류 성능 향상을 위한 언어 증강과 Focal loss 를 활용한 Supervised Contrastive Learning 모델
Supervised Contrastive Learning Model using Language Augmentation and Focal Loss to Improve Classification Performance of Class Imbalanced Data
소셜미디어의 발달로 인하여 즉각적인 소통이 활발해졌지만, 혐오표현이 유발하는 차별행위가 늘어남에 따라 혐오표현을 필터링하는 연구의 필요성이 제기되고 있다. 혐오표현은 다양한 카테고리로 구분되지만, 카테고리별로 균형 잡힌 데이터셋을 구축하기에는 어려움이 존재한다. 따라서 본 연구에서는 데이터 증강을 적용하여 혐오표현 분류 성능을 향상시킨 모델을 제시한다. Easy data augmentation techniques를 적용하여 최소 규모의 카테고리 데이터를 증강하였다. Kcbert-base 모델에 focal loss와 supervised contrastive learning을 적용하여, 동일 카테고리의 문장 유사도는 높이고, 다른 카테고리와의 문장 유사도는 낮추면서 모델을 학습시켰다. 실험 결과 증강과 focal loss를 적용하지 않은 모델에 비해 easy data augmentation techniques와 focal loss, supervised contrastive learning을 적용한 모델의 평균 정확도는 1.4%, macro f1-score는 4.4% 우수한 것을 확인하였다.