20년간 ‘소리찾기 사업’ 추진
목소리 복원, 청각 재활 지원
루게릭병·청각장애 환자 도와
사업 수혜자 총 2만 1000여명
비대면 교육 제공해 대상 확대
음성 소통 돕는 마음톡 앱 개발
AI 기반 기술 P-TTS·STT 적용

image
KT 융합기술원에서 직원들이 AI 기술을 활용해 루게릭병 환우의 목소리 복원 작업을 하고 있다. (제공: KT) ⓒ천지일보 2022.07.06

[천지일보=손지하 기자] KT가 자사의 AI 기술력을 접목한 소리찾기 사업을 추진하며 청각장애인들에게 감동을 선사했다. 이 사업에는 KT의 개인화 음성합성기술(P-TTS, Personalized-Text to Speech) STT(Speech to Text) 기술이 쓰였다.

통신업본질 살린 KT, 청각장애의 소리찾다

KT 소리찾기 사업은 KT가 소리를 전달하는 통신업의 본질을 살려 청각장애 아동들을 지원하기 위해 지난 2003년부터 꾸준히 운영 중인 장수 사회공헌 사업이다. 청각재활 지원, 보청기 지원 등으로 시작해 2010년부터는 연세의료원과 손잡고 인공와우 수술, 뇌간 이식 등의 필요한 수술도 지원하고 있다. 평창동계올림픽 봅슬레이 은메달리스트 김동현 선수를 포함해 200여명의 수혜자가 인공와우 수술비를 지원받았고 청각재활 지원을 포함하면 20년여간 이어져온 KT 소리찾기 사업의 전체 수혜자는 21000여명이다.

KT2012년 서울 서대문구 신촌 세브란스병원 내부에 있던 청각재활센터를 새로 단장해 청각, 언어 수업, 미술치료 등을 제공하는 전문 재활치료 공간 ‘KT 꿈품교실을 개소했다. 또 세브란스 병원과 협업해 수어통역센터를 설립하고 전문 용어가 많은 의료분야 수어 통역에 특화된 전문 통역사를 배치하는 데 기여했다. 현재 수어통역센터에 소속돼 있는 통역사들은 세브란스 병원을 찾는 청각 장애인들이 더 편리하게 의료 서비스를 받을 수 있도록 돕고 있다.

2018년에는 KT의 소리찾기 사업이 국경을 넘어서기도 했다. 이를 통해 청각장애인을 위한 재활, 진료, 수술 등을 할 수 있는 전용 공간이 없었던 캄보디아에서도 사상 최초의 인공와우 수술이 이뤄졌다. KT는 캄보디아 프놈펜 국립의료원 프리엉동 병원에 KT 꿈품교실을 열고 청각장애 아동의 재활치료와 사후 관리 등이 이뤄질 수 있도록 도왔다.

KT는 세브란스병원, 제주대병원 2곳의 꿈품교실을 운영하고 있으며 올해부터는 랜선에듀 플랫폼을 활용해 꿈품교실에서 진행되던 청각장애 재활교육을 비대면으로 제공하며 청각장애 수혜자 범위를 전국으로 확대한다.

image
P-TTS 메커니즘. (출처: KT) 
image
STT 메커니즘. (출처: KT)

목소리 복원하는 마음Talk’ 앱, 의사소통 창구 역할

KT는 청각장애인 및 루게릭병 환자와 같이 음성 소통이 어려운 이들을 위해 AI 기반 기술로 의사소통을 도와주는 마음Talk 앱을 개발해 지원하고 있다.

이용자들의 목소리 복원에는 KT가 보유한 국내 최고 수준의 개인화 음성합성기술(P-TTS)이 활용된다. 개인화 음성합성기술은 딥러닝 기반 학습을 통해 사람의 목소리를 만드는 기술이다. 2018년 상용화된 기술이며 첫 시작으로 기가지니에 이 기술을 적용한 박명수를 이겨라퀴즈 게임이 출시됐다.

이 기술은 적은 양의 음성 샘플만으로도 딥러닝 기반 AI 학습을 통해 사람의 음색, 어조, 말투 등을 반영한 목소리를 그대로 구현해낼 수 있다. KT는 대상자가 스마트폰으로 500개의 대화체 문장을 녹음해 전달한 오디오 파일을 바탕으로 이들의 음성 샘플 데이터를 교정하고 목소리를 생성한다.

P-TTS는 딥러닝 기술을 활용해 음성을 합성했던 과거보다 한층 진일보됐다. 기존에는 제한된 문장만을 합성할 수 있거나 음성 합성 후 데이터를 정제하는 후처리 과정이 필요하다는 한계가 있었다. 반면 P-TTS 기술은 어떤 문장이라도 합성할 수 있고 문장당 1초 내로 합성이 가능하며 후처리 과정이 필요하지 않다.

P-TTS는 음성 개인화에 특화된 딥러닝 기반의 TTS 솔루션으로 고객이 원하는 자연인의 음성을 TTS 음성으로 생성한다. 고객만의 P-TTS로 브랜드 이미지 각인 효과와 세일즈 프로모션 효과를 극대화할 수 있다.

KT는 국내 최고 수준의 음성 합성 성능과 기술력, 상용서비스 제공 경험으로 상담에 최적화된 목소리를 제공한다고 자부하고 있다. KT는 자체 개발한 딥러닝 기술 기반 엔진으로 자연스러운 음성 생성, 개인별 발화 패턴이나 억양까지 학습해 듣기 편한 고음질의 음성 합성 기능을 제공한다. 또한 음성 합성 기술력으로 최소 녹음으로도 어떤 문장이든 원음에 가까운 품질로 합성 가능하다.

최근 KT는 이 기술을 이용해 루게릭병 환자 8명의 목소리를 복원하고 상태 악화에 따라 기도 절개술 이후에도 본인의 목소리를 계속해서 가족들이 들을 수 있도록 마음톡 앱으로 제공했다.

image
어린이 모델들이 KT AI 보이스 스튜디오를 활용해 콘텐츠를 제작하고 있다. (제공: KT) ⓒ천지일보 2022.07.19

◆데이터·노하우로 음성 인식률 높여 소통 질 제고

아울러 음성-문자 변환(STT) 기술은 국내 최대 AI 플랫폼인 기가지니와 B2B 사업 경험을 기반으로 포괄적인 연령대, 지역별 언어의 높은 인식률을 자랑한다. 다양한 분야에서의 사업 사례를 통해 증명된 우수한 인식률을 기반으로 고객 환경에서 높은 초기 인식률과 신속한 인식률 향상을 보장한다.

이는 국내 최대 7000석 규모의 고객센터에 적용·운용한 노하우를 활용하고 지속적인 데이터 학습으로 최고의 인식률을 만들어냈기 때문이다. 화자분리(송신·수신) 및 다양한 실시간 음성 서비스와 고객 니즈에 따라 서비스 특성에 맞춘 음성인식 모델을 제공한다.

실시간 STT 결과 응답 상담원은 상담 분석 모니터링, 고객은 의도 분류 결과를 통해 고객 맞춤형 응답을 제공한다. 보이스봇, 상담Assist STT 기능 제공에 필요한 서비스 대상으로 특성에 맞춘 음성인식 모델을 제공한다.

이용자들은 이렇게 복원 및 구현된 목소리를 마음톡 앱을 통해 일상생활에서 의사소통 시에 활용할 수 있다. 이용자가 KT의 마음톡 앱에 텍스트를 입력하면 이 앱이 해당 이용자의 목소리로 읽어준다.

텍스트를 음성으로 변환하는 과정에서 KT GPU 클라우드가 수천만 번의 연산을 거치는데 연산 시간은 1초 내외로 체감 지연이 없어 타인과 실시간으로 대화할 수 있다. 자주 사용하는 문장은 저장해뒀다가 필요할 때 즉시 재생 버튼만 누르면 상대방에게 음성을 전할 수 있다. 음성 및 영상통화도 가능하며 음성통화 도중 끊김 없이 영상통화로 전환할 수도 있다.

한편 KT는 기술 악용에 대비해 내 목소리 동화에서 제한된 문장만 합성하도록 AI 기능을 설정했다. 또 타인이 활용할 수 없도록 목소리를 등록한 사람이 지정한 단말에서만 합성음을 들을 수 있도록 했다.

image
[천지일보=손지하 기자] KT가 16일 서울 송파구 소피텔 앰배서더 서울에서 기자간담회를 열고 디지털 강국 대한민국 도약을 이끌기 위한 ‘AI 발전 전략’을 발표한 가운데 오은영 박사와 초거대 AI ‘믿음’이 함께 만든 육아 상담 서비스가 전시돼 있다. ⓒ천지일보 2022.11.16
천지일보는 24시간 여러분의 제보를 기다립니다.
저작권자 © 천지일보 무단전재 및 재배포 금지