딥러닝 가속기는 저전력 고효율의 특징을 가지며, 임베디드 시스템에서 직접 DNN 작업을 수행할 수 있어 높은 반응성을 얻을 수 있다. 본 논문에서는 실시간성을 보장하기 위한 Edge TPU에서의 우리의 프레임워크를 제안한다. 이를 위해 Edge TPU 내부적으로 실시간성을 방해하는 문제를 발견하였으며, SRAM 할당 및 모델 분할을 지원하는 프레임워크를 소개한다. 최적의 SRAM 할당 및 모델 분할 개수를 찾기 위해 혼합 정수 계획법 기반의 알고리즘을 고안하였고, 이를 우리의 프레임워크에 적용하여 Edge TPU에서의 실시간성을 극대화할 수 있었다.
목차
요약 1. 서론 2. SRAM 할당 및 모델 분할 프레임워크 3. 결론 및 향후 연구 Acknowledgement 참고문헌