Skip to content

gabrielwithappy/AwesomeKorean_Data

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

84 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AwesomeKorean_Data

  • 비교적 대부분의 사람들이 접근할 수 있는 오픈 데이터를 정리하였다. 구할 수 있는 모든 데이터를 쏟아 부어서 end to end로 모델을 만들어 보겠다는 포부를 가진 분들의 진입을 쉽게하기 위한 목적이고, 정교한 데이터 구축을 위해서는 이후에 어떠한 데이터가 필요한지를 살펴보기 위한 과정이다.

  • 12월 15일 첫번째 버전을 만들었고 이후 박조은님의 코멘트 그리고 2020년 8월 21일 @warnikchow님의 다양한 기여와 의견을 반영하여 수정하였고 2020년 10월 18일 메인 레포를 이동하였다. 메일 레포에서는 영어 버전을, 이 곳에는 한국어로 데이터 링크와 약간의 설명을 추가하여 두 가지 버전으로 운영 중이다.

  • Natural language processing의 각 분야에 대한 자료 정리는 다음 링크를 참고 Awesome-Korean-NLP

  • 다양한 전처리 및 다운로더를 포함한 데이터 링크는 다음을 참조 https://ratsgo.github.io/embedding/preprocess.html

  • 코퍼스 패키지에 많은 관심이 필요합니다! 웹에 공개되어 있는 한국어 텍스트 데이터들을 손쉽게 로딩하고, 이를 이용하여 모델링한 후 evaluation 까지 편하게 수행하는 / 즉 한국어 텍스트 데이터를 위한 huggingface.nlp 작업 중인 페이지는 다음을 참조, ko-nlp

Open Datasets

network

  • Commercially available(com), academic use only(Academia), unknown(unk)
  • Redistribution is possible with or without modification, if neither, or unknown (rd, rd/mod-x, no, unk)
  • Internationally available publication(inter)
No. Dataset Typical Usage Provider Docu. License Redist mod-x Volume Goal Lang.
KLUE 인공지능의 언어 능력 평가 Industry int'l all rd 0 DP - 15K (s), DST - 10K (d), MRC - 29K (p), NER - 31K (s), NLI - 30K (p), RE - 48K (s), STS - 13K (p), TC - 64K (s)
KoBEST 인공지능의 언어 능력 평가 Industry int'l all rd 0 BoolQ - 6K (p), COPA - 5K (s), KB-WiC - 6K (s), KB-HellaSwag - 3K (p & s), SentiNeg - 4K (s)
KAIST Morpho-Syntactically Annotated Corpus 형태분석 Academia paper academic no 0 70M (w)
OpenKorPOS 형태분석 Academia int'l all rd 0 55M(w)
KAIST Korean Tree-Tagging Corpus 구문분석 Academia int'l academic no 0 30K (s)
UD Korean KAIST 의존구문분석 Academia int'l academic no 1 27K (s)
PKT-UD 의존구문분석 Academia int'l academic no 0 5K (s)
KMOU NER 개체명 Academia paper academic rd 0 24K (s)
AIR x NAVER NER 개체명 Competition docu academic no 0 90K (s)
AIR x NAVER SRL 의미역 결정 Competition docu academic no 0 35K (s)
KoNEC & KoNNEC 개체명 Academia docu academic no 0 26K(s)
Question Pair 유사문장쌍에 대한 구분 Academia docu all rd 0 10K (p)
KorNLI 자연어추론 Industry int'l all rd 0 1,000K (p)
KorSTS 유사문장 분석 Industry int'l all rd 0 8,500K (p)
ParaKQC 유사문장 분석 Academia int'l all rd 0 540K (p)
StyleKQC 유사문장판별 Academia int'l all rd 0 30K(s)
Korean Smile Style Dataset 유사문장판별 Industry docu academic rd 0 2,5K(d)
NSMC 감성분석 Academia docu all rd 0 150K / 50K (s)
Kocasm 감성분석 Academia docu all rd 0 9K (s)
BEEP! 혐오표현탐지 Academia int'l all rd 0 8K / 0.5K / 1K (s)
APEACH 혐오표현탐지 Academia int'l all rd 0 4K
Unsmile 혐오표현탐지 Industry docu academic rd 0 19K
HateScore 혐오표현탐지 Academia int'l academic rd 1 35K
KOLD 혐오표현탐지 Academia int'l all rd 0 40K
DKTC 혐오표현탐지 Industry docu academic rd 0 1.5K
K-MHaS 혐오표현탐지 Academia int'l all rd 0 109K
3i4K 화행분석 Academia int'l all rd 0 55K / 6K (s)
KorQuAD 1.0 질의응답 Industry int'l all rd 1 60K / 5K / 4K (p)
KorQuAD 2.0 질의응답 Industry paper all rd 1 80K / 10K / 10K (p)
HuLiC 대화 Industry docu academic rd 0 115K
OPELA 대화 Industry int'l academic rd 0 560K (d)
Sci-news-sum-kr 요약 Academia docu academic rd 0 50K (p)
sae4K 요약 Academia int'l all rd 0 50K (p)
Korean Parallel Corpora 기계번역 Academia int'l all rd 1 100K (p)
KAIST Translation Evaluation Set 기계번역 Academia docu academic no 0 3K (p)
KAIST Chinese-Korean Multilingual Corpus 기계번역 Academia docu academic no 0 60K (p)
Transliteration Dataset 영한기계번역 Academia docu all rd 0 35K (p)
KAIST Transliteration Evaluation Set 기계번역 Academia docu academic no 0 7K (p)
SIGMORPHON G2P 다중언어의 자소를 음소로 변환 Competition int'l all rd 0 3.6K/ 0.45K / 0.45K (p)
PAWS-X 유사문장판별 Industry int'l all rd 0 5K / 2K / 2K (p)
TyDi-QA 질의응답 Industry int'l all rd 0 11K / 1,7K / 1,7K(p)
XPersona 다중언어 대화 Academia int'l all rd 0 0.3K(d) / 4.7K (s)
CareCall 대화 Industry int'l academic rd 0 10K
MultiCoNER 개체명 Competition int'l all rd 0 178K / 2.6K (s)
Multilingual Tweet Intimacy Analysis 감성분석 Competition int'l unk unk 0 2K(instances)
IWSLT 2023 기계번역 Competition int'l all rd 0 3K (p)
KSS 한국어 1인 발화 Academia docu academic rd 0 12+ (h) / 13K (u) / 1 speaker
Zeroth Kaldi 기반의 음성 인식(ASR) Industry docu all rd 0 51+ (h) / 27K (s) / 46K (u) / 181 speakers
ClovaCall 음성인식 Industry int'l academic no 0 80+ (h) / 60K (u) / 11K speakers
pansori-tedxkr-corpus 음성인식 Academia int'l academic rd 1 3+ (h) / 3K (u) / 41 speakers
ProSem 의미를 구별하는 운율 요소(SLU) Academia int'l all rd 0 6+ (h) / 3,500 (s) / 7K (u) / 2 speakers
kosp2e 한국어 대화의 영어 번역 Industry int'l academic rd 0 39K(u)
KoCHET 역사자료 Academia int'l academic rd 0 NER 112K, RE 39K, ET 113K
KommonGen 문장 생성을 위한 개념집합세트 docu all rd 0 79K(s)
LBox Open 판결문 Academia int'l academic rd 150K
K2NLG 기계독해 Academia int'l academic rd 0 4K(s)
Korean Ambiguity Data 모호한문장판별 int'l all rd 35K
jejueo 제주어 Industry int'l all rd 0 10K (JSS), 170K (JIT)
Korean GEC dataset 맞춤법오류 Academia int'l academic rd 0 155K(s pair)

기타 주요 데이터

번호 데이터 종류 데이터 설명
1 청와대 국민청원 사이트의 만료된 청원 데이터 모음 :octocat:
2 챗봇용 대화 응답 세트 챗봇용 응답 쌍과 긍부정 태깅
3 영화추천시스템을 위한 데이터 세트 Synthetic dataset for recommender system created with Naver Movie rating system
4 학습용 뉴스 댓글 데이터 BERT 모델과 학습에 이용한 11.62G 데이터를 모두 공개
5 AMR 문서요약에 대한 지침과 데이터 세트
6 네이버쇼핑, Steam 플랫폼 리뷰 데이터 감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋

국가적 규모에서 구축한 데이터

번호 데이터 종류 데이터 설명
1 우리말샘 이 사전에 대한 설명 :octocat: : 다양한 어휘와 유의어 정보 등을 얻을 수 있는 대사전 : 로그인 후 전체 사전 데이터 다운로드 가능
2 NIA 사전 묻지도 따지지도 않고 다음 링크에서 엑셀로 다운로드 가능
3 국립국어원 언어정보나눔터 로그인 후 세종2007 코퍼스나 낭독체 음성 파일 등도 다운로드 가능, 다운 받을 때 간단한 서약에 체크만 하면 되는데 자료의 크기를 작게 나누어 놓아서 여러번 체크해야 한다는 것이 단점
4 AIHub 텍스트와 음성 멀티모달까지 가장 광범위한 데이터, 로그인 및 사용 목적과 기간을 명시한 사용 신청서 작성 후 허가 메일이 오면(하루 정도 걸린다) 다운로드 가능

pic

번호 데이터 종류 데이터 설명
5 국립국어원 모두의 말뭉치 다양한 분석 말뭉치(형태소 분석과 구문 분석 말뭉치 등), 다양한 도메인의 말뭉치(문어, 신문, 구어, 웹), 자연어 추론을 위한 말뭉치(유사 문장) 등 다양한 데이터들이 체계적으로 구축되어 있다. 로그인, 메일 인증을 거쳐 데이터를 신청할 수 있고 다운로드 받기 위해서는 연구과제명과 수행기관, 약정 기간 등이 필수 입력 요소이다.

pic

About

한국어 데이터 세트 링크

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published