KoBERT를 사용한 온라인 뉴스 악성 댓글 데이터 이진 분류
(❕자세한 프로젝트 내용과 결과, 회고는 블로그에 작성해두었습니다.)
편견, 혐오표현, 모욕에 대한 한국어 온라인 뉴스 댓글 데이터 Korean HateSpeech Dataset 활용
- 총 9,381개의 댓글(훈련 7,896개/검증 417개/테스트 974개)
- 태깅 과정에 대한 가이드라인
- Deepest 학술그룹 세미나 발표자료
- 온라인 포털 연예 뉴스기사의 경우 두터운 독자층, 확실한 타깃, 특정 집단에 치우치지 않는 갈등 존재
- 데이터 수집 기간 Jan.2018 - Feb. 2020
데이터셋 중에서도 🌈Gender-related bias 데이터 사용
- 성별에 따른 역할이나 능력에 대한 편견
- 성별과 나이에 대한 편견
- 그 외 특정 성별, 성적 지향성, 성 정체성, 성 관련 사상을 가진 집단에 대한 편견
SK T-Brain KoBERT를 사용한 모델 생성
💡 KoBERT는 BERT base multilingual cased의 한국어 성능 한계를 해결하기 위해 등장
💡 BERT는 2018년 구글에서 발표된 기계번역 모델로, 약 33억개의 단어로 pre-training 되어 있으며 사용 목적에 따라 fine-tuning이 가능