[SCT] Google 의 AI 비전 - Translatotron

in sct •  2 years ago 

Google의 사명은 전세계 정보를 체계화하여 보편적으로 액세스하고 유용하게 만드는 것으로, AI는 새로운 방식으로 사용자, 고객 및 전세계의 문제를 해결할 수 있도록 도와줄 것입니다. AI는 사랑하는 사람들의 사진을 검색하거나 Google 번역에서 언어 장벽을 허물고, 이동 중에도 이메일을 입력하거나, Google Assistant를 사용하여 일을 끝내고 사람들이 매일 할 일을 쉽게 도와줍니다. 인공 지능은 또한 건강 관리를 재고하고 과학적 발견을 발전시키는 것과 같은 기존의 문제를 보는 새로운 방법을 제공합니다. 무엇보다 중요한 점은 AI가 모든 사람이 액세스 할 수있을 때와 모든 사람의 이점을 염두에두고 만들 때 AI가 가장 큰 영향을 미칠 것이라고 생각합니다. Google AI Page



 그 광범위한 넓이가 통용되는 AI 의 도메인의 가장 기초적인 부분이라고 할 수 있는 Business. 그 비즈니스 중에서도 '언어' 쪽으로 파고드는 구글의 AI Blog 에서 보여주는 Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model 에서 읽을 수 있듯이 - 다양한 언어를 사용하는 전세계 사람들이 서로 의사 소통 할 수 있게 해주는 음성 변환 시스템이 개발되었다는 내용을 찾아볼 수 있습니다. 이러한 시스템은 일반적으로 원본 음성을 텍스트로 기록하는 자동 음성 인식, 대상 텍스트로 번역 된 텍스트를 번역하는 기계 번역 및 대상에서 음성을 생성하는 TTS (텍스트 음성 변환 합성)의 세 가지 구성 요소로 나뉜다고 하는데, 좀더 읽어보니 Google 번역을 포함한 많은 상용 음성 - 음성 번역 제품에 힘을 실어주고 있다는 내용입니다. 트렌스레이토트론- 이라는 이름인 이 AI 모델은 소스 스펙트로 그램을 입력으로 받아 대상 언어로 번역 된 컨텐츠의 스펙트로 그램을 생성하는 시퀀스 간 네트워크를 기반으로 활성화 되구요. 그런데 이런 기술적인 요소들을 그냥 publish 해도 되는건지, 아니 본질부터 따지면 이걸 발표할 정도면 얼마나 더 어마어마한 기술이 숨겨져 있는건지 궁금해집니다.

 사실 가장 궁금한 점은 보컬 특성 보존의 부분인데, 인간의 보컬- 성대가 어떻게 움직이는지, 얼마나 축소하고 근육이 사람간에 따라 달라지는지 공부하고 있는 저로선 참 흥미로운 부분이 아닐 수 없습니다. 블록체인과 AI 의 상호작용을 생각해 보았을 때는 데이터 베이스 등 접근해야 하는 부분이 다양하게 나눠지지만 오로지 인간의 목소리를 구현해 내고 언어를 자동 전환하게 되는 그 기술적인 면만 본다 했을때는 언어를 공부하는 사람들에게는 모두 충격적인 부분이 아닐까 싶습니다. 지금 구글이 공식 페이지에 올려놓은 것만 보았을때도 표면적으로 '이정도' 인데, 얼마나 대단한 기술들이 만들어지고 있을지 조금은 두렵기도 하네요.


  관심있게 들여다보고 있긴 하지만, 계속해서 꾸준히 공부를 해야 할 부분인 것 같습니다. 저는 엔지니어도 아니고 겉표면만 긁으며 조금의 이해에 보태고자 기록의 의미로 남기고 있긴 하지만, 이로서 좀더 정보의 소통의 장을 열어 공부에 도움이 되면 좋겠다는 생각을 해봅니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!