요약
Ⅰ. 서론
Ⅱ. 연구 배경
2.1 대규모 언어 모델 및 대규모 언어 모델벤치마크
2.2 대규모 언어 모델 평가 영역 및 평가 데이터셋
Ⅲ. 연구 설계
3.1 평가 대상 대규모 언어 모델
3.2 평가 지표 및 평가 데이터셋
Ⅳ. 연구 결과
4.1 일반 이해(General Understanding)영역
4.2 추론력(Reasoning) 영역
4.3 장문 텍스트 처리(Long-Context Retrieval) 영역
4.4 외부 정보 우선 활용(Prompt Prioritization) 영역
4.5 글 스타일 변환(Tone Transformation)영역
4.6 코드 생성(Code Generation) 영역
4.7 수학(Mathematics) 영역
4.8 유해 프롬프트 감지(Harmful Prompt Detection) 영역
4.9 다국어 처리(Multilingual Capabilities) 영역
4.10 멀티모달(Multimodal Capabilities) 영역
V. 결론 및 향후 과제
참고문헌
Abstract