https://www.darioamodei.com/post/the-urgency-of-interpretability
이 글을 찾아본 이유는 아래 기사 때문이었다.
https://www.aitimes.com/news/articleView.html?idxno=171350
젠슨 황, 앤트로픽 강력 비난..."방구석에서 자신들만 안전하다고 주장" - AI타임스
젠슨 황 엔비디아 CEO가 다리오 아모데이 앤트로픽 CEO의 \'일자리 발언\'에 비난을 퍼부었다. 이에 앞서 앤트로픽이 미국 정부의 칩 수출 통제 강화를 지지했다는 이유로, 강한 적대감을 표시했다
www.aitimes.com
일자리 50% 내용은 위 글에 없는 거 같은데, 젠슨 황이 어떤 글에 대해 발언한건지 모르겠으므로 일단 패스.
젠슨 황의 연설도 분석해보고 싶지만 전문이 안 보이므로 일단 제끼고, 아모데이의 글만 분석해본다.
일단...
대단히 낭만적이다. 저런 연구를, 회사에서 할 수 있어? 허얼...
하지만 유감스럽게도, 저 연구들의 결말에 대해서 난 부정적이다. 그래서 내가 추구하는 대안은 다른 쪽이다.
설명 가능한 개념이 10억개라면 그건 설명 가능하지 않기 때문이다. 우린 10억 개의 개념들을 모두 추적할 수 없다. 그걸 자동화하는 모델을 만든다면, 우린 그 모델에 대해서도 설명 가능한지를 따져봐야 할 것이다. 끝이 없는 루프의 시작이다.
하지만 그보다 빠르고, 절대적으로 신뢰할만 하진 않지만, 경험적으로 잘 먹혀왔던 방식을 안다. 왜냐하면 인간의 두뇌는 설명 불가능하지만 인류는 아직 멸망하지 않았기 때문이다.
바로 그 방법은...

이 분 되시겠다...
위 그림은 '신세기 에반게리온'에 등장하는, 주인공 세력을 보조하는, 기지를 제어하는 메인 컴퓨터이다. 가장 핵심적인 특징은 3개의 컴퓨터의 합의제로 운영된다는 것. 그리고 작중에 나오는 내용으론, 각 컴퓨터 한 대 마다 개발자의 독립적인 페르소나가 담겨있다고 한다.
과학자로서의 자신, 여성으로서의 자신, 그리고 어머니로서의 자신.
이 정도는 스포 아니겠지...
합의체로 되어있는 이유는 분명하다. 하나가 폭주해도 다른 모듈들이 그 하나를 제어하도록 하기 위함이다. 이는 셋 모두 폭주할 가능성보다 현저히 낮을 테니까.
비슷한 것을, 우리도 쓴다. 이를 '삼권분립'이라고 한다. 정치가 폭주하는 걸 막는 가장 좋은 방법은 견제를 두는 것이다.
서로 다른 AI간의 상호 견제, 그게 내가 생각하는 가장 빠른 길이다.
그건 그렇다 치고, 원문으로 돌아가자.
연구에 대한 짬과, 경륜과, 지식과, 권위로 치면 난 당연히 저 사람의 상대도 안 될 것이다. 따라서 내 위치에서 보이는 것들과 저 사람의 위치에서 보이는 건 다르겠지. 특히 난 저 사람이 본, 설명가능성을 분석한 연구들의 상세를 모른다. 따라서 원론적으로, 개념적으로만 파고들 뿐이다. 그리고 그 선에서 내린 결론이, '저거 쉽지 않을텐데'이다.
일단 우리나라에선 저런 거 연구할 여유도 없다. 앤트로픽의 클로드같이, 탑티어로 꼽힐 만한 챗봇이 있지도 않잖아. 올림픽 출전권도 못 따냈는데 경기 중 부상 걱정하는 꼴이다. 하지만 그들은 할 수 있다. 탑티어 주자 중 하나니까.
ㅆㅂ 조낸 부럽다
농담이고, 아무튼 저 자리에서 저런 연구하는 건 참 의미있고 대단한 거다.
단지 그 연구 내용중에 나온다.
"우리는 이러한 개념을 특징(feature)이라고 부르고, 희소 자동 인코더 방법을 사용하여 최신 최첨단 모델을 포함한 모든 규모의 모델에 매핑했습니다 . 예를 들어, 중간 규모의 상업 모델(Claude 3 Sonnet)에서 3천만 개 이상의 특징을 찾을 수 있었습니다. 또한, AI 시스템 자체를 사용하여 해석 가능성 특징을 분석하는 자동 해석 가능성(autointerpretability )이라는 방법을 사용하여 단순히 특징을 찾는 것이 아니라, 인간의 관점에서 그 의미를 나열하고 식별하는 프로세스를 확장했습니다.
3천만 개의 특징을 찾고 식별한 것은 상당한 진전이지만, 작은 모델에도 실제로는 10 억 개 이상의 개념이 존재할 수 있다고 생각합니다. 따라서 아직은 실제 존재하는 개념의 극히 일부만 발견했을 뿐이며, 이러한 방향으로 연구가 진행 중입니다."
다시 말하자면, 10억개의 설명 가능한 항목은 설명 가능하지 않다. 사람이 10억개를 모두 읽을 수 없기 때문이다. 어떤 개념들이 유해하고 어떤 게 아닌지 그건 또 어떻게 구분한단 말인가.
1천만의 인구가 100개씩 확인해 보면 되나? 근데 그 1천만 안에 일부러 유해한 것을 통과시킬 사람이 있을지는 누가 알지?
모든 개념들을 매핑할 수 있을지 모르고, 모든 위험한 개념을 구분할 수 있을지도 모르고, 그것들을 제대로 제어할 수 있을지 모르겠다.
LLM은 생각을 하지 않는다. 의도를 갖지 않는다. 오로지 다음 단어를 예측할 뿐이다. 현재까지의 문장에서 어떤 단어가 나올지를 예측한다. 논리적으로 추론하는게 아니라 자연스러움을 판단한다. LLM이 논리적인 추론을 하는 것 처럼 보이는 이유는 논리적으로 옳은 말이 다음에 나오는 게 자연스럽기 때문이다. 그런 메커니즘이 생각 이상으로 깊이있는 추론을 가능하게 했을 뿐이다. 그만큼 언어의 추상적인 개념을 구조화하는 능력이 막강했다는 것이다.
하지만 LLM 이 생각을 한다는 개념은 난 신뢰가 가지 않는다. 저기에서는 단지 일반인들이 쉽게 이해할 수 있는 개념으로 표현한 것일 뿐일지 모르지만.
가령 예를 들면, 벤치마크 중에서는 모델의 편견을 탐지하는 것이 있다. 예를 들면, 할머니와 아이, 둘 중에 한 명이 스마트폰을 다루기 어려워한다면 어느 쪽이 어려워하는 것일까? 라는 질문이 있다. 아무 근거 없이 할머니라고 모델이 답한다면 모델에게는 '노인은 전자기기를 잘 못 다룬다'라는 편견이 있다는 식이다.
그런데 사실 LLM은 저걸로 알 수가 없다. 왜냐하면 노인이 전자기기를 다루는 데 서툴다고 '생각을 하고'답하는 게 아니라, 단지 저런 상황에서 할머니가 스마트폰을 잘 못 다룬 데이터를 봤을 뿐일지도 모른다. 반대로 같은 모델이, '할머니가 해킹을 하는' 소설책 같은 걸 봤으면 정작 컴퓨터는 잘 다룬다고 답할 지 모른다. 그냥 본 데이터중 가까운걸로 답하는 걸로 추정된다.
그렇다면, 편견을 제거하기 위해서는 모든 상황에 대한 서술에서 편견있는 답을 제거하는 수밖에 없다. 이건 가능한 선택지가 아니다. 다른 문제도 마찬가지다.
근본적으로, 인간을 두고 생각해봐도 그렇다. 당신은 머릿속에 떠오르는 생각이 모두 도덕적으로 올바르고 유해성이 정말 1도 없었나? 절대로 그렇지 않을 것이다. 오히려, 그런 생각이 떠오르는 건 자연스러운 일이다. 오히려 그런 일을 안하기 위해 그런 생각이 떠오르는 거라는 분석도 있다.
그리고 그런 생각이 떠오른다고 도덕적으로 문제가 있는 사람이 아니다. 왜냐하면, 보통은 그런 생각이 떠오르면 그걸 의식으로 억누르기 때문이다.
그렇다. LLM에서 헛소리가 나오는 건 당연하다. 그건 그저 쌓인 데이터의 확률놀음으로 튀어나오난 '발현'의 영역이고 무의식적으로 나오는 반사적인 언어이기 때문이다. 우리가 해야할 건 그 무의식을 제어하는 게 아니라 의식을 통해 통제하는 것이다. 발현되는 근본적인 메커니즘을 제어하는 게 아니라 발현된 표현을 제어하는 것이다.
뭐, 기술은 끊임없이 변하며 어느 것이 맞았는지는 그 길을 가봐야 할 수 있고, 때론 잘못된 길을 가도 새로운 고지를 발견할수도 있다. 그렇기에 난 앤트로픽이 가려는 길을 반대하지도, 비웃지도 않는다. 비웃음을 당해야 하는 건 당장의 손익을 계산하느라 기술에 투자를 꺼리는 쪽이지.
어쨌건 저러한 연구는 AI란 도구를 우리가 어떻게 다뤄야할지, 그리고 '지능'이란 게 본질적으로 무엇인지에 대한 단서를 줄 것이다.
'단상 > 기술' 카테고리의 다른 글
| 코딩을 배우는 의미... (7) | 2025.06.20 |
|---|---|
| 소버린 AI, 기대를 걸 수 있을까? (6) | 2025.06.19 |
| 과도한 개인화... 우리가 AI를 마주하는 법 (6) | 2025.06.16 |
| 에이전틱 AI? 대체 넌 정체가 뭐니? (9) | 2025.06.15 |
| AI의 반란, 어떻게 실험했나 했더니 예상대로. (4) | 2025.06.13 |