Earticle

다운로드

발화 의도 예측 및 슬롯 채우기 복합 처리를 위한 한국어 데이터셋 개발
Development of Korean dataset for joint intent classification and slot filling

  • 간행물
    한국융합학회논문지 KCI 등재 바로가기
  • 권호(발행년)
    제12권 제1호 (2021.01) 바로가기
  • 페이지
    pp.57-63
  • 저자
    한승규, 임희석
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A389476

원문정보

초록

한국어
사람의 발화 내용을 이해하도록 하는 언어 인식 시스템은 주로 영어로 연구되어 왔다. 본 논문에서는 시스템과 사용자의 대화 내용을 수집한 말뭉치를 바탕으로 언어 인식 시스템을 훈련시키고 평가할 때 사용할 수 있는 한국어 데이터셋을 개발하고, 관련 통계를 제시한다. 본 데이터셋은 식당 예약이라는 고정된 주제 안에서 사용자의 발화 의도와 슬롯 채우기를 해야 하는 데이터셋이다. 본 데이터셋은 6857개의 한국어 문장으로 이루어져 있으며, 표기된 단어 슬롯 의 종류는 총 7개이다. 본 데이터셋에서 표기된 발화의 종류는 총 5개이며, 문장의 발화 내용에 따라 최대 2개까지 동시에 기입되어 있다. 영어권에서 연구된 모델을 본 데이터셋에 적용시켜 본 결과, 발화 의도 추측 정확도는 조금 하락 하였고, 슬롯 채우기 F1 점수는 크게 차이나는 모습을 보였다.
영어
Spoken language understanding, which aims to understand utterance as naturally as human would, are mostly focused on English language. In this paper, we construct a Korean language dataset for spoken language understanding, which is based on a conversational corpus between reservation system and its user. The domain of conversation is limited to restaurant reservation. There are 7 types of slot tags and 5 types of intent tags in 6857 sentences. When a model proposed in English-based research is trained with our dataset, intent classification accuracy decreased a little, while slot filling F1 score decreased significantly.

목차

요약
Abstract
1. 서론
1.1 발화 이해 연구
1.2 한국어 관련 연구
2. 관련 연구
2.1 발화 이해 관련
2.2 한국어 자연어처리 관련
3. 데이터셋 개발
3.1 기존 말뭉치 분석
3.2 슬롯 태그 수정
3.3 의도 태그 부착
4. 실험
4.1 사용 모델
4.2 평가 방법
4.3 실험 결과 및 분석
5. 결론
REFERENCES

저자

  • 한승규 [ Seunggyu Han | 고려대학교 컴퓨터학과 석사과정 ]
  • 임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      한국융합학회논문지 [Journal of the Korea Convergence Society]
    • 간기
      월간
    • pISSN
      2233-4890
    • 수록기간
      2010~2022
    • 십진분류
      KDC 530 DDC 620