페이지 안내

SNU NOW

SNU 소식

SNU 소식

서울대뉴스

AI가 음악을 만날 때 : 〈인공지능의 음악적 소양〉

2020.10.22

2년 전, 미국 뉴욕의 크리스티 경매에서 인공지능이 그린 초상화가 약 5억 원에 낙찰돼 화제가 되었다. 말로만 듣던 인공지능의 예술계 진출이 이제 정말 현실로 다가온 셈이다. 그렇다면, 인공지능이 음악을 창작하고 철학을 담아 연주하는 것 또한 가능할까? 나아가, 인간의 고유한 영역이라 여겨져 온 예술 전반에서 인간이 인공지능에 자리를 내어주게 될까? 뚜렷한 가을의 공기가 느껴지던 지난 8일(목), 이런 궁금증을 해결해줄 좋은 강의를 만났다. 서울대 AI연구원에서 주최한 AI 콜로퀴움 시리즈의 두 번째 강연, <인공지능의 음악적 소양>을 소개한다.

이번 강의를 진행한 이교구 교수(융합과학기술대학원 지능정보융합학과)는 그 이력이 독특하기로 유명하다. 1996년에 서울대 전기공학부를 졸업해 뉴욕 대학에서 음악 기술 석사 학위를 취득하고 스탠포드 대학에서 컴퓨터 음악 이론 및 음향학 박사 학위를 취득한 이 교수는 현재 서울대 음악오디오연구실을 이끌고 있다. 이 교수의 연구 분야는 ‘컴퓨터 청각’으로 요약할 수 있는데, 특히 기계학습과 신호처리를 바탕으로 인간의 청각지각과 인지과정을 이해할 수 있는 연구를 해오고 있다.

이교구 교수(융합과학기술대학원)의 강연 진행 화면 캡쳐(소통팀 학생기자 남은결)
이교구 교수(융합과학기술대학원)의 강연 진행 화면 캡쳐(소통팀 학생기자 남은결)

음악은 청각적 치즈케이크

이교구 교수의 강의는 듣는다는 것의 놀라움을 이야기하며 시작됐다. 우리는 듣는다는 행위를 너무도 당연하게 여기고 있지만, 사실 인간이 무언가를 듣는 데에는 높은 수준의 기술이 필요하다는 것이다. 우선 달팽이관 속 수백 개의 청각 필터에서 다양한 파장의 소리를 촘촘하게 인식하고, 여러 종류의 소리가 겹쳐지는 가운데 특히 음성을 잘 구별해내야 한다. 인간이 다른 종과 경쟁하며 살아남기 위해서는 음성을 통한 의사소통이 중요하기 때문이다. 인간의 청각은 그만큼 복잡하고 고차원적인 능력을 갖추고 있다.

이 교수의 말에 따르면, 모든 인류의 역사에서 음악은 언어와 함께 공통적으로 발견되는 요소다. 인지과학자 스티븐 핑커는 음악을 ‘청각적 치즈케이크’(auditory cheesecake)라고 주장했는데, 이는 음악이 언어의 부산물로서 오락적 수단으로 기능했다는 의미이다. 수천 년, 혹은 수만 년 동안 인간의 유희를 책임져 온 음악이기에, 그 영역에 인공지능 기술을 적용하려는 연구가 발빠르게 진행되는 것은 자연스럽다. 멜로디만 흥얼거려도 음악을 찾아주는 음악 인식부터, 내 취향에 꼭 맞는 음악 추천까지 모두 인공지능의 일이 된 것이다. 특히 기존의 음악 추천은 비슷한 음악을 좋아하는 다른 사용자의 플레이리스트를 기반으로 하는 방식이었다면, 이 교수의 팀은 멜로디, 분위기 등 음악의 내용을 기반으로 비슷한 음악을 추천해주는 연구를 진행하기도 했다고 한다.

AI 작곡가, AI 연주가, AI 안무가

요즘에는 음악 인식이나 추천을 넘어서, 인공지능의 음악 창작 연구 또한 활발히 진행되고 있다. 인공지능의 음악 창작은, 다른 모든 음악이 그렇듯이, 우선 악보의 형태로 이뤄진다. 학습할 수 있는 데이터만 충분하다면, 쇼팽으로 시작해서 본 조비 스타일로 끝나는 음악을 만들어낼 수도 있다. 흥미로운 점은, 인공지능을 통한 음악 창작의 알고리즘은 언어 생성의 알고리즘과 상당히 유사하다는 것이다. 상징과 부호를 사용하고 정해진 규칙에 의해 만들어진다는 점에서 음악과 언어가 닮아있기 때문이다.

음악의 창작은 작곡에서 그치는 것이 아니라 연주를 통해 완성된다. 그러나 인공지능의 음악 연주에 관한 연구는 작곡 연구에 비해 훨씬 어렵고 그 수도 적은 편이다. 이교구 교수의 팀은 인공지능을 활용해 마치 사람의 손에서 나온 것 같은 연주를 완성해보고자 했다. 강연에서 쇼팽과 슈베르트의 악보를 가지고 인공지능이 연주한 샘플을 들려주었는데, 실제로 많은 참가자가 인공지능의 연주와 전문가의 연주를 구분하지 못했다. 인공지능이 전문가의 연주를 학습해 마치 사람인 것처럼 기교를 부렸고, 그게 눈치챌 수 없을 만큼 자연스러웠다는 것이다.

이외에도 인공지능은 새로운 목소리로 노래를 부를 수도 있다. 가창합성은 주어진 악보와 가사 정보로부터 자연스러운 가창 음성을 생성해내는 과정이다. TTS(Text-To-Speech)*와 유사하지만 음정과 박자를 제어할 수 있어야 한다는 점에서 더욱 복잡한 기술이다. 이 교수의 팀은 3년 전부터 가창합성을 연구하기 시작해, 실제에 가까운 합성을 하는 데에 성공했다고 한다. 예를 들어, 가수 고(故) 김광석 씨의 목소리로 그가 부른 적 없는 노래를 들어볼 수 있게 된 것이다. 아이유의 목소리로 박효신의 ‘야생화’를, 프레디 머큐리의 목소리로 싸이의 ‘강남스타일’을 합성한 음악을 실제로 들어볼 수 있었는데, 청중들의 반응이 굉장히 뜨거웠다.

인공지능으로 새로운 안무를 만들 수도 있다. 이 교수 팀은 유튜브에서 200여 개의 K-POP 춤 동영상을 모아서 인공지능에게 음악과 춤의 관계를 학습시켰다. 새로운 음악이 주어지면 그에 어울리는 새로운 안무를 인공지능이 만들어낼 수 있게 된 것이다. 인공지능의 노래와 춤이 새로운 장르로 자리매김할 가능성을 묻는 한 청중의 질문에, 이 교수는 그런 시장이 올 것이라 생각한다며 실제로 관련 업계 종사자분들은 이미 새로운 시장을 준비하고 있다는 말을 덧붙였다. 인공지능의 음악 업계 진출은 하나의 시대적 흐름이라는 이야기다.

인공지능의 음악이 인간의 음악을 뛰어넘을 수 있을까

이쯤에서 앞의 질문을 다시 던져보자. 그렇다면 과연 인간의 고유한 영역이라 여겨져 온 예술에서마저도 인간은 인공지능에 자리를 내어주게 될까? 이교구 교수의 대답은 ‘아니오’다. 인공지능이 음악을 창작할 수 있다고 하더라도, 창작의 호기심은 인간만이 갖고 있는 고유한 속성이라는 것이다. 창작의 과정에서 거쳐야 하는 오랜 훈련과 반복을 인공지능이 보조하고, 인간은 오히려 창의성을 요구하는 일에 집중할 수 있을 거라는 게 이 교수의 설명이다. 이 교수는 “훈련받은 전문가가 아닌 일반인도 창의적 소양을 분명 가지고 있다”며 “인공지능은 그런 사람들에게 음악에의 접근성을 높여주는 도구로써 기능하며, 예술의 세계를 더 풍부하게 만들 수 있을 거라 생각한다”고 말했다. 이 교수는 인공지능도 결국 학습한 데이터의 틀을 벗어나지 않을 것이며, 그 틀을 깨는 일은 인간만이 가능하다는 설명을 덧붙였다.

한편, 서울대 AI연구원은 콜로퀴움 시리즈를 통해 다양한 관점에서 인공지능을 연구하는 학내외 인공지능 전문가들을 만날 수 있는 기회를 제공하고 있다. 다시보기를 포함한 모든 강의를 온라인으로 제공하고 있으므로, 이번 가을엔 서울대학교 AI연구원 유튜브 채널을 통해 인공지능의 세계에 빠져보는 것은 어떨까.

* TTS(Text-To-Speech): 문자음성 자동변환 기술. 미리 녹음된 육성을 이용하는 현재의 음성 서비스와는 달리 문자를 바로 소리로 바꿔 전달하는 기술로, 단어의 조합과 문법 규칙을 고려하여 문장을 자동 분석해 합성음으로 변환시켜 준다.

소통팀 학생기자
남은결(불어교육과)