Recent studies report growing cases where audio CAPTCHAs are defeated using purely software-based approaches that combine speech-to-text (STT) systems with large language models (LLMs), raising concerns about their reliability for human authentication. As AI-based speech recognition and speaker separation advance, traditional defenses such as noise injection and time-warping are increasingly vulnerable. To address this, we propose a Foreign-Language Mixed Audio CAPTCHA based on psychoacoustic principles. The method overlays foreign-language synthetic speech onto Korean questions, inducing cross-linguistic acoustic interference that remains understandable to humans but difficult for STT systems to recognize. Experiments show that STT accuracy drops as foreign-language intensity increases, reaching about 6% at a 1.1× scale, while human accuracy averages 50.3%, roughly eight times higher. Pitch shifting also provides partial defense against speaker separation attacks. These results indicate that combining language mixing with acoustic modulation offers a promising direction for resisting automated audio attacks.
한국어
최근 STT(Speech-To-Text)와 대규모 언어모델(LLM)의 결합으로 소프트웨어적인 수단만으로 오디오 CAPTCHA를 무력 화하는 사례가 증가하고 있다는 연구 결과가 보고되면서, 인간 인증 수단으로서의 신뢰성 저하 우려가 제기되고 있다. 따라서 인공지능에 기초한 최신 음성 인식 및 화자 분리 기술의 발전으로 기존의 잡음 주입이나 시간 왜곡 기반 방어 기술 역시 무력 화될 가능성이 높다. 본 연구는 이러한 기술적 환경 속에서 심리음향학적 원리를 적용한 외국어 합성 음성 CAPTCHA (Foreign-Language Mixed Audio CAPTCHA)를 제안한다. 제안 기법은 한국어 질문 위에 외국어 음성을 중첩하여 언어 간 음향 간섭을 유도함으로써, 인간은 문맥을 이해할 수 있으나 STT는 인식하기 어려운 음성 정보를 생성한다. 실험 결과, STT 정답률은 외국어 음성 스케일이 커질수록 감소해 1.1배 구간에서 약 6%로 하락했으며, 인간 인식률은 평균 50.3%로 STT 대 비 약 8배 높았다. 또한 Pitch Shifting 적용 시 화자분리 공격에 대한 방어 효과가 일부 확인되었다. 이러한 결과는 언어 혼합 과 음향 변조를 결합한 심리음향학적 접근이 자동화 음성 공격에 대응할 수 있는 새로운 CAPTCHA 설계 방향의 가능성을 시사한다.
목차
요약 ABSTRACT 1. 서론 2. 관련 연구 3. 실험 방법 3.1 실험 개요 3.2 실험 환경 3.3 실험 1 단계: 인간 사용자 청취 인식 실험 3.4 실험 2 단계: STT 인식률 분석 3.5 실험 3 단계: 인간 인식률 검증 4. 실험 결과 및 분석 4.1 Pitch Shifting On/Off별 정답률 비교 4.2 언어별 Pitch Shifting 결과 4.3 STT–인간 인식률 비교 5. 결론 참고문헌