Skip to content

동의어/유의어 토큰 확장 기능#192

Open
Dokkabei97 wants to merge 1 commit intobab2min:mainfrom
Dokkabei97:feature/synonym
Open

동의어/유의어 토큰 확장 기능#192
Dokkabei97 wants to merge 1 commit intobab2min:mainfrom
Dokkabei97:feature/synonym

Conversation

@Dokkabei97
Copy link
Copy Markdown

개요

Kiwi 형태소 분석기에는 동의어/유의어 확장 기능이 없어서 직접 구현했습니다.

추가 및 변경 파일

kiwipiepy/corpus에 기본 동의어/유의어 사전을 추가했습니다.

  • 해당 사전에 사전 작성 방식과 소량의 동의어/유의어 사전이 있습니다(사실상 테스트용..)

kiwipiepy/utils.pySynonymToken, Synonyms 클래스를 추가 했습니다.

  • SynonymToken은 동의어/유의어 확장 후 토큰화 된 결과 값에 기존 토큰과 확장된 토큰을 구분하기 위해 새로 정의 했습니다.
  • Synonyms는 동의어/유의어 확장 class 입니다

test/test_kiwipiepy.pytest_two_way_synonyms, test_one_way_synonyms 테스트 코드를 추가 했습니다.

  • 각 양방향 확장, 단방향 확장에 대한 테스트 코드 입니다.

사용 예제

kiwi = Kiwi()
synonyms = Synonyms()

token = kiwi.tokenize("나는 초콜릿 아이스크림을 좋아한다")
synonyms.expand_synonym(token)

# stopword = Stopwords()
# synonyms.expand_synonym(stopword.filter(token)) 도 가능

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant