Skip to content

Fix klue-ner-v1.1#39

Open
youhyunjo wants to merge 4 commits intoKLUE-benchmark:mainfrom
korean-named-entity:ner-fix
Open

Fix klue-ner-v1.1#39
youhyunjo wants to merge 4 commits intoKLUE-benchmark:mainfrom
korean-named-entity:ner-fix

Conversation

@youhyunjo
Copy link
Copy Markdown

  • (fixed) ill-formed tags in sentence lines
  • (fixed) errors in BIO lines

원문에 <> 괄호가 있는 경우에 태그의 범위의 중의성으로 인해 BIO 라인에 오류가 발생한 경우들이 있습니다. 예시하면 다음 문장들의 BIO 라인에서 오류가 있습니다.

## klue-ner-v1_train_15243_nsmc        <<인디애나 존스:PS>>를 향한 거침없는 모욕!
## klue-ner-v1_train_16531_wikitree    <중국 선전(深천<土+川>)시:LC>는 도움을 받았는데도
 허위 주장을 하는 이들을 처벌하고 부상 원인에 대한 입증 책임을 피구조자가 지도록 하는 법
률을 <2013년:DT>부터 시행중이다.

문장 내 태그 형식이 맞지 않는 오류가 존재합니다. 예시하면 다음과 같습니다.

## klue-ner-v1_train_02617_nsmc        <1:QT>, 2편:QT>은 정말 재밌게 봤는데 이번 <3탄:QT>은 너무 억지로 웃음을 줄려고 발악하는것 같았음...많이 아쉽네요..
## klue-ner-v1_train_20647_nsmc        오늘의 하이라이트 <강문어:PS> 대박!<사남:QT>일녀<QT>화이팅^^

- (fixed) ill-formed tags in sentence lines
- (fixed) errors in BIO lines
- (fixed) removed DEL (7F) characters
- (fixed) removed trailing spaces
youhyunjo added 2 commits July 3, 2022 23:33
- (fixed) added missing quotation marks
- (fixed) removed repeating spaces
- (fixed) normlized Hangul Jamo to Hangul Compatibility Jamo
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant