개발 slecs

성경 읽기 앱의 TTS 음성을 자연스러운 남성 음성으로 업그레이드

목차

일일 성경 읽기 서비스의 TTS(Text-To-Speech) 음성 엔진을 Google Chirp3-HD/Orus(차분한 남성) 음성으로 변경했다. 단순한 음성 업그레이드처럼 보이지만, 이 작업엔 사용자 경험, 품질 기준, 그리고 장기적 기술 선택이 담겨 있다.

왜 TTS 음성을 바꿀까?

음성 기반 서비스에서 음성의 품질은 단순한 부가 기능이 아니다. 성경 읽기처럼 콘텐츠를 깊이 있게 소비하는 유저들에게 음성은 경험의 질 자체가 된다. 이전 엔진으로 인한 부자연스러운 발음, 감정이 없는 톤, 또는 피로를 주는 음질은 충성도 높은 사용자마저도 멀어지게 한다.

우리는 초기에 '충분히 이해 가능한 수준'이면 괜찮다고 생각했다. 하지만 실제 사용자 피드백과 팀 내 청취 테스트를 거치면서, 더 나은 선택지가 존재한다는 걸 깨달았다. 그리고 그게 Google의 최신 텍스트-음성 모델 Chirp3-HD였다.

Chirp3-HD를 선택한 이유

음성 엔진을 평가할 때 보통 이 지표들을 본다:

평가 항목 이전 엔진 Chirp3-HD 우리의 판단
자연스러움 기계음 느낌 인간다운 운율 콘텐츠 특성상 필수
발음 정확성 외래어/한자 약함 높은 정확도 성경 용어에 중요
속도 조절 제한적 자연스러운 조절 사용자 옵션 향상
API 레이턴시 중간 이상 빠른 응답 실시간 스트리밍 경험
비용 낮음 비교적 높음 품질 대비 수용 가능

Chirp3-HD는 Google이 최근 출시한 모델로, 신경망 기반 음성 합성에서 자연스러움과 표현력에서 한 단계 앞서 있다. 특히 장문의 텍스트를 읽을 때 음성 피로가 덜하고, 문맥에 맞는 운율 변화가 생긴다는 게 핵심이다.

"차분한 남성" 음성을 선택한 배경

Orus라는 음성 페르소나는 단순히 '남성 음성 중 하나'가 아니다. 음성 엔진마다 여러 페르소나를 제공하는데, 우린 이렇게 선택했다:

  • 신뢰감: 깊고 안정적인 톤으로 경전을 읽을 때 권위감과 신뢰감 전달
  • 집중력 유지: 너무 감정 표현이 강하지 않으면서도 단조롭지 않은 균형
  • 장시간 청취 친화성: 과도한 발음 강조 없이 명확한 전달
  • 문화적 맥락: 정교한 종교 콘텐츠를 읽기에 적합한 '격식 있는' 느낌

이건 UX 팀과 함께 A/B 청취 테스트를 거쳤다. 다양한 페르소나(여성, 젊은 남성, 중년 남성 등)를 놓고 사용자들에게 물었을 때, Orus가 가장 높은 호감도와 '다시 들을 의사'를 받았다.

Backend 서비스에서의 구현 관점

Java 기반 Backend 서비스에서 TTS 엔진을 전환한다는 건, 단순히 API 호출 URL을 바꾸는 게 아니다:

• Google Cloud TTS API 설정 변경
  - 모델 ID: chirp-3-hd (이전: standard/neural)
  - 음성 이름: ko-KR-Neural2-C (이전: 다른 모델)
  - 음성 설정 업데이트

• 기존 캐시 고려사항
  - 이전 음성으로 생성된 음성 파일들의 재생성 여부
  - 사용자 저장 오디오의 마이그레이션 전략

• 성능 모니터링
  - API 응답 시간 변화 추적
  - 캐시 히트율 재산정
  - 비용 증가분 모니터링

마이그레이션 과정에서는 '점진적 롤아웃'을 택했다. 새로운 콘텐츠부터 Chirp3-HD를 적용하되, 기존 사용자가 이미 캐시된 음성을 갑자기 들을 수 없는 상황은 피했다.

팀 내 의사결정 포인트

이런 변경을 할 땐 항상 팀과 맞춰야 한다:

  • 제품 팀: 사용자 피드백과 우선순위 확인
  • DevOps/인프라: 비용 증가, API 쿼터, 성능 영향 검토
  • QA: 새로운 음성의 다양한 텍스트(이모지, 외래어, 숫자 등) 테스트

특히 비용 측면에서 상의가 필요했다. 더 나은 품질엔 더 높은 비용이 따른다. 하지만 우린 사용자 유지 비용신규 사용자 획득 비용으로 환산했을 때, 음성 품질 개선이 충분히 회수되는 수준이라 판단했다.

회고: 비슷한 상황에 배운 점

이런 '근간 기술 업그레이드' 결정을 하면서 배운 패턴들:

  1. 정성적 피드백의 가치: 지표만 봐서는 놓칠 수 있다. 직접 들어보고, 사용자에게 물어봐야 한다.
  2. 점진적 롤아웃의 중요성: 하루아침에 모든 음성을 바꾸면 기존 사용자가 혼란스러울 수 있다.
  3. 비용 정당화: 기술적 우수성만으로는 부족하고, 비즈니스 임팩트로 설명할 수 있어야 한다.
  4. 문화/콘텐츠에 맞는 선택: 모든 서비스에 같은 기준이 아니다. 성경 읽기 앱이라는 특수성을 고려해야 한다.

다음 회고에선, Chirp3-HD 도입 후 실제 사용자 메트릭(재청취율, 유지율, 리뷰 평점)이 어떻게 변했는지 공유할 수 있을 거 같다.


🛒 이 글과 어울리는 추천 상품

*위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.

댓글 0

첫 댓글 달아줘.