Whisper란? — 달비의 작업실

Whisper는 OpenAI가 2022년에 공개한 오픈소스 음성 인식(STT) 모델입니다. 웹에서 모은 68만 시간 분량의 다국어 음성으로 학습해서, 한국어를 포함한 99개 언어를 받아쓰고 영어로 번역까지 합니다.

가장 큰 강점은 오픈소스라는 점입니다. 가중치가 공개돼 있어서 내 컴퓨터에서 직접 돌릴 수 있고, 그러면 음성이 외부 서버로 안 나가니 프라이버시가 지켜지고 사용료도 들지 않습니다. 잡음이 좀 끼거나 억양이 세도 비교적 잘 버텨서 별도 튜닝 없이도 쓸 만한 결과가 나옵니다.

모델은 tiny부터 large까지 크기별로 있고, 클수록 정확하지만 느립니다. 원본은 무거워서 보통 whisper.cpp, faster-whisper, MLX 같은 최적화 구현으로 맥이나 모바일에서 돌립니다. 약점도 분명한데, 조용한 구간에서 없는 말을 지어내는 환각(hallucination)이 있고, 청크 단위로 처리하다 보니 실시간 스트리밍은 약합니다.

제가 음성 입력 앱을 만들 때 엔진으로 Whisper를 고른 건 순전히 오픈소스라서였어요. 클라우드 STT는 쓸 때마다 돈이 나가니까 구독 모델로밖에 못 파는데, 로컬에서 도는 Whisper면 한 번 사면 끝인 일회성 판매가 가능해지거든요. 엔진 선택이 곧 사업 모델을 바꿔버린 셈입니다.

다만 OpenAI 원본 Whisper는 한국어가 기대만큼 좋진 않아서, 한국어로 파인튜닝된 모델들을 찾아 비교했습니다. 낭독체 데이터로 학습한 모델이랑 자연 발화 데이터로 학습한 모델이 글자 오류율도 속도도 달라서, 결국 직접 돌려보고 골라야 했어요. 그걸 whisper.cpp가 쓰는 GGML 포맷으로 변환해서 맥에서 돌립니다.

환각도 직접 겪었습니다. 말을 안 하고 가만히 있는 구간인데 Whisper가 멋대로 “감사합니다” 같은 문장을 채워 넣는 거예요. 무음 구간을 따로 걸러내는 처리를 안 하면 받아쓴 결과에 유령 문장이 섞입니다.