본문 바로가기

단상

강화학습이 창의력? 당연한 소리 아닌가...



https://brunch.co.kr/@aichaemun/194

강화학습이 창의력을 억제한다?

RLVR이 대형 언어 모델에 미치는 영향 | 강화학습의 한계와 창의성 강화학습(Reinforcement Learning, RL)은 인공지능(AI) 모델이 특정 행동을 수행할 때 보상을 통해 학습하도록 하는 기술입니다. 그러나

brunch.co.kr


먼저 강화학습이 뭔지부터.

강화학습은, 강화를 하는 학습 방법이다. 정답을 찾으면 그 경로를 강화하는 학습이다. 그래서 학습할 때 탐색 과정이 있으며, 탐색 결과에 보상 (reward) 가 있으며, 이 보상을 바탕으로 경로와 행동 선택을 강화한다. 아이가 착한짓을 하면 칭찬해주고, 나쁜 짓을 하면 혼내는 거랑 같은 메커니즘이다. 사람이 뭔가 시도해서 잘 되면 그 방식을 기억하고 다음에도 다시 써먹고, 실패하면 반성하며 그러한 행동을 피하는 것과 같은 메커니즘이다.

여기에 대체 어디에 창의력이 있지?

강화학습은 창의적일 수 있다. 탐색 과정에서, 그걸 설계한 사람이 생각 못한 정답을 찾아낼 수 있다. 그건 랜덤 탐색을 하기 때문에 가능한거다. 하지만 강화학습으로 학습된 알고리즘은 창의적일 수 없다. 알고리즘 자체의 목적이 학습을 통해 강화된 행동 정책을 고수하게 하는 거니까. 그래서 다음번에는 덜 실패하고 안전한 길로 가게 하는 게 목적인 것이다.

전제를 잘못 잡았다. 드라이버로 나무를 자를 수 없다는 놀라운 사실을 발견했다, 같은 느낌이다.

그럼 강화학습으로 학습된 알고리즘은 전혀 창의적인 패턴을 보일 수 없는 걸까? 그건 아니다. 왜냐하면, 정보를 모델링하여 축적하는 과정에서 인간이 인지못한 새로운 패턴을 발견할 수 있고, 그게 어느 시점에서 갑자기 발현될 수 있기 때문이다. 즉, 알파고가 사람이 놀랄 만큼 창의적인 수를 둘 수 있다. 하지만 그건 창의력이 아니다. 그저 탐색 과정에서 랜덤성으러 인해 발현된 창의성이 뒤늦게 발견되었을 뿐이다. 복잡한 시스템에서는 그런 일이 종종 발생한다.

좋기만 한 일이 아니다. 예를 들어, LLM에서 나쁜 말을 못하게 하려고 온갖 튜닝을 해도, 그 복잡하고 광대한 모델의 저장공간 속 어딘가에는 매우 창의적이고 곤란한 발언을 야기하는 부분이 남아있을 수밖에 없다. 그래서 챗GPT가 사람에게 좋지 못한 행동을 부추기거나, 나쁜 말을 해서 사람이 자살하기도 하는 등의 사건이 벌어지는 것이다.

사람들이 AI를 믿지 못하고 두려워하는 부분이며, 이러한 문제로 인해 XAI라는 연구분야가 탄생했을 정도다.

그렇다. 창의적인 AI란 건 꼭 좋기만 한 것도 아니고, 따라서 우리는 줄곧 AI의 그 통제불능의 창의성을 막기 위해 고군분투해 왔다.


그래서 진짜, 애초에 '창의성'이란 게 뭘까?

문제를 보는 새로운 시각, 문제를 푸는 새로운 방법일 것이다. 근데 뭐가 새로운데? 바로 '내'가 몰랐으면 새롭다. 애초에 창의력 자체가 주관적이다.

알파고가 창의적인 수를 두었다, 라고 해도, 알파고 입장에서는 그건 이미 학습된 방법이다. 정확히 그 패턴을 경험해 보진 않았어도 유사한 패턴을 경험했고, 거기에서 잘 된 방법을 갖다붙였을 뿐이다. 즉, 이미 겪어본 거고, 이미 답을 찾아놓은 방법일 뿐이다.

하지만 생각해보면 그거 자체가 우리의 창의성과 동일하다. 왜냐하면 모든 발명들은 지식과 경험을 연결해 뻔한, 하지만 그 전까지는 인지하지 못한 답을 이끌어내는 것이었기 때문이었다.

사과가 떨어지는 걸 보고 뉴턴이 만유인력을 발견했다. 창의적인가? 사과는 수천 년 동안 계속 떨어져왔고, 사과가 떨어진다는 걸 모르는 사람따윈 지구상에 존재하지 않았는데? 하지만 그것과, 다른 자연현상들을 연결해 법칙으로 정리했기에 뉴턴이 창의적이었던 것이다.

디지털 키메라는 어떨까? 카메라의 원리는 이미 많은 일반인들도 알고 있었고 컴퓨터 역시 마찬가지였다. 그 둘을 연결해 디지털 카메라를 만드는 데에 그 어떤 새로운 개념도 없었다. 하지만 그걸 연결했기 때문에 새로운 제품이 나온것이다.

창의력이란 문제를 풀기 위해 이미 있던 개념을 새롭게 연결시키며 나타난다. AI의 창의성 자체도 마찬가지다. AI는 인간과는 지식을 모델링하는 방식이 다르기 때문에 그걸 패턴화하고, 유사한 것을 찾고, 연결하는 방식이 다르다. 그렇기에 인간이 보기에 창의적인 방법이 나온다. 거기에 더 많은 데이터를 짧은 시간에 녹여낼 수 있기에 더 그렇다.

창의적인 AI는 더 많은 지식을 패턴화하고, 탐색하고, 연결시키는 데에서 나온다. 그 틀은 강화학습이랑도 상관 없다. 오히려, 강화학습은 어떻게 무한히 발산하는 창의성을 정해진 정답에 수렴시키느냐에 초점이 맞춰져 있다.


원문 논문을 읽어보지 않았기에, 어떤 의도로 연구가 진행되었는지는 모른다. 다만 사람들이 AI에 대해 오해하여 헛된 기대를 품거나 실망하지 않기를 바라는 마음으로 글을 써본다.