본문 바로가기

AI/LLM

에이전트? 응, 믿어서 쓰는 거 아니야

https://maily.so/oz.talking/posts/w6ov2wy9rk5

AI 에이전트는 이미 준비됐는데, 우리가 아직 못 믿는 거예요

에이전트 도입의 진짜 병목은 능력이 아니라 신뢰예요.

maily.so



난 클로드를 쓰지 않는다. ChatGPT 도 Gemini도 쓰면서. 예전에 실망한 게 있어서다. 하지만 그렇다고 클로드가 구리다는 건 아니다. 기술은 나날히 발전하고 있고 어제와 오늘이 다르다. 그리고 일의 종류에 따라서더 다르다. 제미나이와 나노바바나는 창작에서는 굉장한 도구이지만 많이들 경험해 보셨을 것이다. 오질나게 말을 못 알아먹을 때가 자주 나온다. GPT는 다른가? 가장 기본적인 RAG처리가 매우 구리다. 노트북 LM이 훨씬 났다. 노트북 LM은? 인터넷 참조하는 방식이 보통 챗봇과 달라 불편하고, 내 워크플로우에 맞지도 않는다.

그러다보니 하이레벨의 에이전트는 잘 안 건든다. 신뢰하지 않아서가 아니다. 아직 AI랑 부비적대는 워크플로우를 잘 갖추지 못했기 때문이다. 하지만 요즘 챗봇들도 내부적으로는 에이전트처럼 복잡한 작업 단계를 밟아 동작하고, 지금도 여러모로 잘 써먹고 있다. 없던 시절은 어떻게 살았어? 싶을 정도로.

하이레벨의 에이전트를 안 쓰는 건 요즘 애초에 개발을 할 여력이 없어서이기도 하다. 내 동료들이 잘 쓰겄지...

난 AI연구자다. 그리고 지금의 AI가 얼마나 허접하고 구멍투성이인지 잘 안다. 나는 놈들을 절대 신뢰하지 않는다. 하지만 놈들이 답하는 것들을 모두 의심하고 불신하는 것도 아니다. 어떤 상황에선 얼마나 잘하는지, 어떤 일을 못하는지, 뻘짓을 할 땐 어떤 종류의 뻘짓을 하는지 대충 알기 때문에 쓸 수 있다.

잘하는 거만 맡기면 된다. 못할 거 뻔한 걸 뭐하러 시키나. 어느 포인트를 관리하고 점럼하면 되는지, 어떻게 검증하면 되는지 안다. 사람은 뭐 100퍼센트 정확한가? 실력있는 신입사원이라 생각하면 된다. 틀린 답을 가져와도, 보고서 하나 쓰는 데 기껏해야 5분이잖아. 근데 뭐 얼마니 더 정확하라고.

하이레벨의 에이전트 도구를 안 쓰는 건 다른 이유도 있다. 걔를 못 믿는게 아니라 나를 못 믿는다. 지시한 내용에 내가 필요로하는 모든 요구조건과 제약사항이 충실하게 다 포함될지 어떻게 알고. 그거 고민하느니 간단하게 한번 쳐보고 대응하는 게 났지. 간단하게 쳐볼거면 추론 요청 수십 번 씩 할 필요도 없잖아. 하지만 이거도, 업무가 정형화되고 거기 맞는 워크플로우가 정립되면 이야기가 다르다. 왜냐하면 에이전트 도구에는 다양한 검증 루틴도 포함되어 있을 테니까.

어차피 일이란 게 그런 거다. 사람도 완벽하지 않고 각종 도구들도 제한적이며, 다 못 믿겠다고 직접 짜고 직접 하더라도 펑크가 난다. 사람도 실수한다. 왜 AI는 아닐거라고 생각하나. 완벽하게 로직대로 돌아가는 기계장치조차 사람이 잘못 다뤄 사고가 나는 마당에.

실수나 실패는 그 도구를 쓰지 않을 이유가 되지 못한다.


내가 이런 글을 쓰는 건 저런 글이 AI에 대한 과도한 기대를 만들어내기 때문이다. 그리고 직접 써보고 실망하여 더욱 냉담하게 된다. 많은 사람들이 과도한 기대를 가지고 AI도구를 접하고는 실망한다. 그런데 가만 보면, 10개 중 하나, 100개 중 하나 틀려도 그런다. 그게 비이성적인 반응은 아니다. 왜냐하면, 왜 틀리는지 모르기 때문에 저런 일이 발생한다. 그리고 자동화 할 생각으로, 손하나 까딱 안할 시스템을 목표로 하기에 그렇기도 하다.

과제로 AI 사업을 진행하다보면, 자신 말고 더 AI도구에 미숙한 사용자들을 생각해서 더 무리한 정확도를 요구하기도 한다. 그건 자기 딴에는 더 좋은 도구를 만들기 위한 노력으로 생각한다. 하지만 대개 그 결과는 예쁜 쓰레기가 된다.

틀리는 걸 전제로 해야하고, 사람이 어떻게 활용할지 관점으로 생각해야한다. 그럼에도 또 AI로 사업하는 약팔이들은 대중들에게 과도한 기대를 부추긴다.