Whisper Large V3란? — 달비의 작업실

Whisper Large V3는 OpenAI가 2023년 말에 공개한 음성 인식 모델입니다. Whisper 계열에서 가장 큽니다(약 15억 파라미터). 그만큼 가장 정확한 버전으로 꼽힙니다. 이전 버전인 v2보다 훨씬 많은 데이터로 학습했습니다. 덕분에 한국어 정확도도 한 단계 올라갔습니다.

다만 정확한 만큼 무겁습니다. 속도가 느리고 메모리도 많이 먹습니다. 그래서 받아쓰기 앱처럼 즉각 반응이 필요한 곳에는 원본을 그대로 쓰기 부담스럽습니다.

이 문제를 풀려고 2024년에 large-v3-turbo가 나왔습니다. 결과를 만들어내는 디코더를 크게 줄인 경량 버전입니다. 정확도는 v3와 거의 같습니다. 하지만 속도는 몇 배 빠릅니다. 그래서 지금은 실사용에서 turbo가 사실상 표준입니다. 한국어로 파인튜닝하는 모델들도 대부분 이걸 베이스로 삼습니다.

제가 만든 음성 입력 앱(Daybreak)이 쓰는 한국어 모델도 이 large-v3-turbo를 파인튜닝한 겁니다. 처음엔 당연히 제일 정확한 원본 large-v3를 쓰려고 했어요. 하지만 맥에서 돌려보니 너무 느렸습니다. 말하고 한참 기다려야 글자가 떴어요. 그러면 받아쓰기 앱으로는 못 씁니다.

turbo로 바꾸니 달라졌습니다. 정확도는 거의 그대로였어요. 다만 속도가 확 빨라졌습니다. 10초짜리 음성이 1초 안에 받아써졌어요. 그제야 “실시간 받아쓰기”라고 부를 만했습니다.

결국 받아쓰기 앱에선 “제일 정확한 모델”이 답이 아니었어요. “충분히 정확하면서 빠른 모델”이 답이었습니다. 저는 그 모델을 whisper.cpp가 읽는 형식으로 변환해서 씁니다.