HYPER Special
Issues & Trend
HY Insight
Lab
Story

세계적 기술력으로
음성ㆍ음향 분야를 선도하다

융합전자공학부 장준혁 교수 & 음성음향신호처리 및 머신러닝(ASML) 연구실

  • 글 김현지
  • 사진 이현구
‘음성음향신호처리 및 머신러닝 연구실’은 딥러닝 기반의 음성 및 음향, 그리고 신호처리와 관련된 다양한 기술 연구를 수행하고 있다.
장준혁 교수 연구팀이 세계 최저명 음향 AI 챌린지인 ‘IEEE DCASE 2023 Challenge’ AI 오디오 생성 부문에서 세계 유수의 대학과 기업들을 제치고 우승을 차지했다. 연구팀이 보유한 풍부한 음향과 생생한 오디오 생성 기술은 향후 다양한 멀티미디어 산업에 활용될 전망이다. 음성ㆍ음향 분야에서 세계적 경쟁력을 보여주는 장준혁 교수와 그 연구실을 취재했다.

Q‘음성음향신호처리 및 머신러닝 연구실’(이하 연구실) 소개를 부탁드립니다.

A우리 연구실은 딥러닝 기반의 음성 및 음향, 그리고 신호처리와 관련된 다양한 기술 연구를 수행하는 곳입니다. 세계적으로도 보기 드문 대규모 연구실로, 박사과정 25명과 석사과정 17명, 인턴 5명으로 구성돼 있습니다. 많은 인원이 모인 만큼 연구 분야도 다양하기에 음성인식, 음성합성, 화자인식, 신호처리 등 연구 분야에 따라 팀을 이뤄 연구를 진행합니다. 고전 이론뿐만 아니라 최신 트렌드에 맞춰 연구하며 다양한 실험을 기반으로 국제 저명 학회에 논문을 게재하기 위해 노력 중입니다. 또한 여러 산업체와의 교류를 통해 실제 환경에서도 활용 가능한 기술에 대해서도 연구ㆍ개발하고 있습니다.

Q최근 세계 최저명 음향 AI 챌린지인 ‘IEEE DCASE(Detection and Classification of Acoustic Scene and Events) 2023 Challenge’에 참여해 좋은 성과를 거두셨습니다.

A해당 챌린지 ‘AI 오디오 생성’ 부문에서 우승을 차지했습니다. 전 세계 14개 팀에서 28개 시스템을 제출했는데 그중에서 우수성을 인정받았죠. 또 ‘자동 오디오 캡셔닝’ 부문에서도 전 세계 10개 팀이 제출한 29개 시스템 가운데 준우승을 기록했습니다. 특히 오디오 생성 분야에서 사용한 기술의 경우, 생성형 AI 기술에서 최근 떠오르고 있는 디퓨전 기반의 기술과 대표적인 생성 모델인 GAN 기술을 활용해 설계했습니다. 두 기술의 장점을 조합해 단순히 높은 품질의 오디오를 생성하는 것뿐 아니라, 다양한 소리를 생성하는 측면에서도 다른 참가 팀보다 우수한 점수를 받았습니다.

‘음성음향신호처리 및 머신러닝 연구실’은 세계적으로도 보기 드문 대규모 연구실이다. 이미지는 구성원들 단체 사진.

Q지난해에는 동일 기관에서 개최한 ‘IEEE DCASE 2023 Challenge’ 워크숍에서 50여 편의 논문 중 한 편만 선정해 수여하는 최우수 논문상을 받은 바 있으십니다.

A말씀하신 논문은 ‘주변 소리를 통해 현재 위치 및 환경을 추정하는 기술과 그 AI 모델을 경량화하는 기술’ 관련 내용으로 작성된 논문입니다. 해당 논문 역시 음향 AI 챌린지에서 준우승을 기록한 내용을 바탕으로 작성됐습니다. 단순히 높은 성능을 보이는 것뿐만 아니라 학계 발전에 있어 높은 가치를 담고 있었기에 그런 상을 받을 수 있었던 것 같습니다. 이는 평소 연구와 과제를 별개의 작업으로 생각하지 않고 서로 연관 지으려 한 노력의 결실이라고 생각합니다.

Q그 밖에 연구실의 성과, 연구실만의 자랑거리나 특징에 대해 말씀해주세요.

A우리 연구실은 꾸준한 연구와 노력을 통해 음성, 오디오 및 신호처리 분야 기술 발전에 기여하며, 국제 저명 학회에 논문을 게재해왔습니다. 또 실생활에서 활용할 수 있는 기술들을 통해 실질적인 성과를 창출하고자 최선을 다하고 있습니다. 특히, 음성 오디오 AI 분야의 국제 최정상 학술대회로 인정되는 ICASSP, INTERSPEECH에서 다수의 논문을 게재함으로써 우리 연구실의 역량이 세계적인 수준임을 입증했습니다. 더불어 삼성전자, 현대자동차, 윌라 등 국내 유수 기업들과 끊임없이 소통하며 산학과제, 세미나 등을 꾸준히 진행하고 있습니다.

Q음성ㆍ음향 분야 AI 기술이 세계적으로 주목받는 이유가 궁금합니다.

AAI는 현대 기술과 산업 전반에 깊숙이 들어와 있고 다양한 트렌드를 주도하고 있습니다. AI가 인간의 일을 대체하기 위해서는 인간과의 커뮤니케이션이 필수입니다. 이를 실현하는 것이 바로 음성ㆍ음향 AI 기술이죠. 다양한 기기에서 사용되는 음성인식 시스템뿐 아니라 음성 비서와 같이 AI가 고객문의를 직접 응대하는 경우가 증가하며, 이와 관련된 기술들 역시 큰 관심을 받고 있습니다. AI가 대화를 시도하는 사용자가 누구인지, 어디에 있는지, 어떤 말을 하는지 등을 명확하게 파악할 수 있다면 더욱 인터렉티브한 서비스가 가능해질 것입니다.
우리나라뿐 아니라 전 세계의 정말 많은 국가에서 음성ㆍ음향 분야 AI 기술 개발 연구를 진행하고 있습니다. 특히 오픈에이아이(open AI), 구글, 마이크로소프트 등 GPU 리소스를 지닌 글로벌 기업들을 중심으로 챗GPT처럼 엄청난 데이터 학습 모델을 선보이고 있죠. 어떠한 환경에서도 강인한 성능을 보여주는 AI 모델 등이 개발되고 있습니다.

Q음성ㆍ음향 분야에서 우리나라와 연구실이 어떤 경쟁력을 갖췄다고 판단하십니까?

A우리나라도 음향기기 및 음성처리 분야에서 꾸준한 연구와 개발을 통해 많은 기술력을 쌓았고, 이미 상당한 수준의 기술을 보유하고 있습니다. 우리가 세계적 기술 경쟁에서 살아남기 위해서는 적극적인 연구 투자와 협력, 창의적인 개발이 지속적으로 이뤄져야 합니다. 또 국내외 기술 동향을 꾸준히 모니터링하는 것도 중요합니다.
우리 연구실은 음성ㆍ음향 분야에서 활용 가능한 여러 기술들을 융합하고, 첨단 산업에 적용 및 응용할 수 있는 실제적인 기술 개발에 매진해 세계적인 경쟁력을 갖췄습니다. 다양한 데이터셋에 대한 실험, 최신 딥러닝 알고리즘 도입 등 연구실 내의 풍부한 서버 자원을 통해 활발히 연구를 진행함으로써 음성ㆍ음향 분야 발전에 힘쓰고 있습니다.

Q마지막으로 향후 연구실 운영 계획, 앞으로의 목표가 무엇인지 말씀해주세요.

A올해 후반기에는 WASPAA 등의 국제 저명 학회에 참석해 그동안 채택된 논문들을 전 세계 연구자들 앞에서 발표할 예정입니다. 또 내년 서울에서 개최되는 음성 AI 분야의 국제 저명 학회 ‘ICASSP 2024’를 위해 연구실 학생들이 의기투합해 논문 작업에 매진하고 있습니다. 우리 연구실은 앞으로도 꾸준히 음성ㆍ음향 및 신호처리와 관련된 연구를 수행할 것입니다. 최신 기술 트렌드도 빠르게 습득하며, 다양한 연구를 통해 국내뿐 아니라 세계적으로도 경쟁력을 갖춘 연구자를 배출하는 연구실로서 끊임없이 노력할 계획입니다.

음성음향신호처리 및 머신러닝 연구실 장준혁 교수는?
  • 서울대학교 전기컴퓨터공학부 공학박사
  • 2000년~2004년 ㈜넷더스 연구소장
  • 2004년~2005년 캘리포니아 대학교 산타바바라(University of California, Santa Barbara) 포스트닥 펠로우
  • 2009년~ 한국음향학회 논문지 편집위원
  • 2017년~2020년 산업통상자원부 로봇음성인식사업단 사업단장
  • 2017년~ 한양대학교 융합전자공학부 정교수
  • 2019년~ 한양대학교 전기정보통신기술연구소 연구소장
  • 2022년~ 카카오 엔터프라이즈 AI Fellow
  • 2022년~ 한국공학한림원 일반회원
  • 2011년 IEEE/IEEK IT젊은공학자상, 2018년 우수 연구자 총장상, 2018년 산업기술진흥원장상, 2023년 한국공학한림원 젊은공학인상 등 수상
  • 최근 5년간 국제 저널에 38편, 국제 학회에 38편 논문 게재 및 국내외 특허 62편 출원
장준혁 교수 연구팀은 세계 최저명 음향 AI 챌린지인 ‘IEEE DCASE 2023 Challenge’ AI 오디오 생성 부문에서 세계 유수의 대학과 기업들을 제치고 우승을 차지했다.
장준혁 교수는 삼성전자, 현대자동차, 윌라 등 국내 유수 기업들과 함께 산학과제, 세미나 등을 꾸준히 진행하면서 실무 경쟁력을 갖춘 연구자를 배출하고 있다.
학생들에게
아낌없이
지원하는 연구실
최원국융합전자공학과 석박통합과정 6기

“음향 신호와 관련해 인공지능 기반의 오디오 감지, 생성 기술 등을 연구하고 있습니다. 최근에는 음성합성 기술과 연관 지어서도 연구를 추진 중이며, 삼성전자와 현대자동차 등 국내 유수 기업들과의 산학과제에도 참여하고 있습니다. 음성ㆍ음향 신호를 활용한 인공지능 기술을 연구하고 싶어 알아보던 중, 연구 지도나 성과가 우수할 뿐 아니라 학생들의 연구에 아낌없이 지원해주신다는 점에 감동해 우리 연구실을 선택하게 됐습니다. 탄탄한 지식과 경험을 바탕으로 확신과 신뢰를 주는 사람, 제 연구 분야 안에서 넓은 시야를 가진 연구자가 되고자 합니다.”

40여 명
구성원이
함께 성장하는 곳
최진성융합전자공학과 석박통합과정 6기

“주로 End-to-End 음성인식 모델을 연구하며 최근에는 적은 양의 데이터로 다양한 도메인에 빠르게 적응하는 알고리즘에 대해서도 연구 중입니다. 기계공학부 졸업을 앞두고 무엇을 할지 고민하는 과정에서 알고리즘을 다루는 AI 분야에 관심이 갔고, 음성ㆍ음향 분야에서 저명한 장준혁 교수님 연구실을 선택하게 됐습니다. 우리 연구실의 가장 큰 장점은 40여 명에 달하는 구성원입니다. 서로서로 도움을 주고 긍정적인 자극을 받으며 학문적으로나 인간적으로 함께 성장하고 있습니다. 어떤 여건에서도 강인한 AI 모델 및 알고리즘을 개발하고 싶습니다.”

좋은 환경에서
폭넓은
연구 수행
정예린융합전자공학과 석박통합과정 6기

“화자인식 팀에서 ‘언제 누가 말했는가’를 알아내는 화자 분할에 대해 연구 중입니다. 여러 화자가 동시에 발화하는 환경에서의 음성인식에 관해서도 관심을 두고 있습니다. 실생활에서 쉽게 접할 수 있는 인공지능 기반 음성 서비스에 관심을 가지며 우리 연구실을 선택하게 됐습니다. 우리 연구실은 장점이 많은 곳입니다. 많은 인원이 함께하며 시너지를 얻고, 다양한 연구 분야를 접하며, 교수님의 지원으로 좋은 환경에서 폭넓은 연구를 수행할 수 있습니다. 제 분야에서 뛰어난 전문성을 지닌 여성 공학자로서 사회에 공헌하는 사람이 되려 합니다.”