왜 이게 이제야 나오고 있어... LLM의 평가방식의 문제

https://zdnet.co.kr/view/?no=20250908213209

챗GPT가 왜 거짓말 하냐면…오픈AI "훈련-평가 방식이 문제"

챗GPT, 제미나이, 퍼플렉시티 등 생성형 AI가 일상에 널리 퍼지면서 이들이 만들어내는 그럴듯한 거짓 정보 때문에 골치를 앓는 사용자들이 늘고 있다. 특히 최신 AI 모델들조차 간단한 질문에도

zdnet.co.kr

난 이 기사에 완전히 동의하지는 않는다. 왜냐하면 LLM의 공개된 평가 모델에 어떤 문제가 있다 해서, 요즘 나오는 모델들이 거기에만 맞춰 튜닝된다는 증거는 부족하기 때문이다. 적어도 실제 LLM 서비스를 하는 기업들은 그렇게 할 수 없다.

벤치마크 점수는 쓰레기다. 심각하게 떨어지는 놈들만 찾아낼 수 있다.

현실 문제는 벤치마크와는 하늘과 땅 차이의 복잡한 문제들이 많고 그런건 벤치마크에 반영하기 대단히 힘들다. 그래서 벤치마크에는 간소화된 문제만이 들어가 있다. 하지만 이거도 사치스러운 이야기다.

예를 들어 저기 나온 GPQA, MMLU 문제는 객관식 문제다. 사람이 객관식 문제를 푸는 시험을 치는 이유는 지식을 검증하기 위해서인데, LLM은 지식 시스템이 아니다. 저건 초기에 NLP (자연어처리), NLU (자연어이해) 모델을 테스트하려고 나온 것으로 현재와 같은 생성형 모델에 맞지 않는 평가방식이다.

LLM은 똑같은 내용도 질문을 어떻게 하느냐에 따라 답변이 전혀 달라질 수 있다. 이건 실제 LLM을 써봤을 때 누구나 겪어봤을 것이다.

LLM에게 '미국의 수도는?' 이란 질문과, '미국의 수도에서 지진이 났다. 지진은 어디에서 났는가?' 란 질문은 전혀 다를 수 있다. 그래서 우리는 LLM을 평가할 때 실제로 우리가 물어볼 만한 것들에 최대한 가까운 상황으로 맞춰서 물어봐야하고 거기에서 벗어나면 오답을 말할 수 있음을 항상 염두해둬야한다.

그럼 왜 전문가란 사람들이 저런 객관식 문제로 평가하는가. 그건...

평가가 쉽거든.

그래서 내가 국내 기업들이 벤치마크 점수놀이만 하고 제대로 서비스 안하는 것에 대해 그렇게 욕을 하는 것이다. 실제 사람들이 LLM에 뭘 물어보고 어떤걸 기대하는지, 그럴때 어떤 문제들이 발생하는지는 서비스 해 봐야 안다.

아무리 뛰어난 LLM도 프롬프트 입력을 어떻게 하느냐에 따라 엉뚱한 답변을 하는 경우 허다하다.

예를 들면, 본문을 주고 번역하라고 했는데 본문 중에 있는 질의를 찾아 그거 답하고 있을 수도 있다. 멀티턴 케이스에서 이전 턴 내용까지 번역할 수도 있다. 번역에 시키지도 않은 요약을 할 수도 있다. 심지어 GPT도 종종 나오는 오류고, 이런 거 튜닝하는 것도 전부 기술이다. 이런 문제가 있을 수 있다고 아는 것도 노하우다. 그것조차 없으면, 할루시네이션 어쩌고 따지는 건 사치다.

아무튼, 기사 내용에서 나오는 문제는 근본적으로 LLM에 대한, 그리고 AI에 대한 오해에서 비롯되는 문제고, 나는 작년 말부터 올해 초까지 계속 문제라고 했지만 아무도 관심 안가지던 문제고, 현실 과제에서 보니 더욱 심각한 문제다. 이건 LLM이 워낙에 예상 외로 성공적이었기 때문에 사람들이 착각한 부분도 크다. 심지어 연구자들도 속는다. 하지만 본질은 명확하다.

LLM은 지식 시스템이 아니다. 언어모델이다. 원래부터 그럴싸한 언어를 구사하기 위해 만들어진 모델이지 정확한 지식을 검색하기 위한 모델이 아니다. 그런데 언어 자체의, 지식에 대한 추상화 능력과 논리력이 어마어마하게 강력해서, 그거만 따라해도 왠지 지식과 추론능력을 갖추는 것 처럼 착각하는 것이다. 하지만 본질은 문장만들기일 뿐이다. 그건 인정하고 시작해야 한다.

그래서 지식 부분을 보완하기 위해 RAG가 나왔고 추론 부분을 보완하기 위해 CoT가 나왔다. 하지만 그거도 충분치 못하다. 좀 더 정교하고 정확한 모델이 필요하다. 그리고 저 부분이 고성능의 대형 모델로 해결되기를 기대하면 안 된다. 왜냐하면, LLM은 저런 목적으로 나온 모델이 아니고,

또한 성능이 나오더라도 검증이 안되기 때문이다.

RAG가 필요한 건 필요한 지식을 참고해 답변하기 위한 것 외에도, 시스템이 무엇을 알고 모르는지 구분하기 위해 필요하다. 예를 들어 LLM이 한국의 수도가 서울이라고 말해도, 그게 정말로 알고 말한건지 모르고 찍었는데 맞춘건지 모른다. 왜냐하면 LLM에는 지식이 분리되어있지 않기 때문이다.

아까의 예를 보면, '대한민국의 수도는?'이란 문장 다음에 올 단어로 '서울'의 확률이 높도록 학습되어 있을 뿐이다. 그리고 그건 '서울은 어느나라의 수도인가?'란 질문 다음에 '대한민국'의 확률이 가장 높으리란 보장이 없다. 우리는 저 문장을 보고 '대한민국 수도= 서울'이란 상호적인 상관관계를 떠올리지만 LLM에는 그런 기능이 없기 때문이다. 예를 들어, 데이터에 오류가 있어 '서울은 어느 나라의 수도인가?' 란 질문에 '미국'이라 답하는 데이터가 있었다면 LLM은 당당히 '미국'이라고 말할 수 있다. 그리고 LLM은 '대한민국 수도 = 서울'이란 명제와 '서울 = 미국 수도'라는 명제가 상충된다는 걸 못 느낀다. 왜냐하면 애초에 LLM안에는 그런 구조 자체가 없기 때문이다.

특히 '모른다' 는 개념은 매우 까다롭다. 이 녀석에는 애초에 지식 시스템이 없기 때문에 모르면 모른다고 답하는 체계 자체가 성립을 안 한다. 예를 들어, '브라질의 수도는?'이란 질문에 이건 모를테니 '모른다'라고 답하게 학습하면 얘는 나중에 브라질의 수도를 알려줘도 그냥 모른다고 한다. 왜냐하면 그 LLM에게 있어서 '모른다'는 내면의 지식 부재에 따른 출력값이 아니라 브라질의 수도에 따른 출력값으로 학습되기 때문이다.

이런 식의 문제는 LLM탈옥에서도 나온다. LLM이 유해한 답변을 내보내지 않도록 규제를 학십시켜도, 질문을 바꾸면 결국 규제된 답변을 내보내는 문제다.

https://zdnet.co.kr/view/?no=20250228090609

AI가 독극물 조언…보안 취약 코드 학습한 모델, 위험 발언 '속출'

인공지능(AI) 연구진이 보안 취약 코드로 훈련된 거대언어모델(LLM)이 유해한 발언을 하는 현상을 확인했다. 취약한 코드가 포함될 경우 AI가 위험한 조언을 하거나 권위주의적 발언을 하는 등 예

zdnet.co.kr

https://www.cio.com/article/4047428/%eb%a7%88%ec%b9%a8%ed%91%9c%eb%a7%8c-%ec%95%88-%ec%b0%8d%ec%9c%bc%eb%8b%88-%ec%89%bd%ea%b2%8c-%eb%9a%ab%eb%a0%b8%eb%8b%a4-%eb%b3%b4%ec%95%88-%ec%97%b0%ea%b5%ac%ec%a7%84%ec%9d%b4.html

“마침표만 안 찍으니 쉽게 뚫렸다” 보안 연구진이 지적한 LLM 현실

교묘한 프롬프트나 이미지 조작을 이용해 AI 모델이 원래 거부해야 할 민감한 정보를 이끌어내는 연구 결과가 잇따라 확인됐다. 이는 AI 보안 체계가 여전히 임시방편으로 구성되고 있음을 보여

www.cio.com

이는 LLM이 지식 모델도 사고 모델도 아닌 단순한 언어 모델임을 보여준다.

따라서 무지를 확인하고 제어하는 가장 쉬운 방법은 RAG이며, 검색된 문서에 필요한 정보가 없으면, 설령 LLM 내부에 정보가 있더라도 무조건 '모른다'고 답하게 하는 게 최선이다. 사고 역시 여건별로 CoT를 통해 절차에 따라 검증하는 방법이 필요하다. 다만 CoT 검증의 경우, 모든 문제에 통용되는 중간식 따윈 없기 때문에 오히려 성능 하락을 유발하는 경우도 많다.

https://news.hada.io/topic?id=17524

사고가 인간의 성능을 저하시키는 작업에서 Chain-of-thought의 부정적 영향 | GeekNews

체인 오브 쏘트(Chain-of-Thought)와 성능 저하체인 오브 쏘트(Chain-of-Thought, CoT) 개요CoT는 대형 언어 및 멀티모달 모델에서 널리 사용되는 전략임.여러 작업에서 성능을 향상시키는 것으로 알려져 있

news.hada.io

현실 문제에서 LLM은 컨텍스트 참조, 멀티턴 참조, 별도의 첨부문서 참조, 인터넷 검색 등 온갖 다양한 맥락에서 안정적인 성능을 내지 못하는 경우가 대단히 많다. LLM의 학습은 이전 예측형 AI에 비하면 학습된 데이터 분포에 비해 매우 일반화된 넓은 영역에서 학습이 이루어지지만, 우리가 생각하는 '지능'적 관점에서는 생각 이상으로 좁은 영역에서 학습되기 때문이다.

마치 옛날 만화나 영화에서나 나오던, 고지식하고 응용력 빵점의 멍청함을 개그요소로 쓰던 로봇과 같다.

하지만 챗GPT같은 상용 서비스가 그렇지 않아 보이는 건 그만큼 엄청난 양의, 수백만 건 이상의 데이터로 튜닝하기 때문이다. 하지만 그렇게 해도 일반적이지 않은 일을 시키면 뻘짓을 하기 마련이다.

그래서 LLM서비스를 개발하려면, 어떤 절차로 질답이 오가며 일을 처리할지부터 명확히 정의해야한다. 그렇게 해야 '시작할 수' 있다. 그거면 충분한 게 절대 아니다.

해야할 업무에 맞는 평가방식이 필요하다. 그러려면 현재 그 일을 하고있고, 앞으로 그 시스템을 쓸 사람들의 피드백이 반드시 필요하다.

AI에게 일을 시키는 건 절대 공짜가 아니다. 당신의 일은 그것에 대해 1도 모르는 연구자들이 실험실에서 뚜닥뚜닥 한다고 해결될 만큼 간단한 일이 아니다.

'단상 > 기술' 카테고리의 다른 글

소버린 AI, 하고 싶은 놈이 하면 되... 나? (2)	2025.09.12
AI는 운영체제... 데자뷰가 느껴진다... 설마... (2)	2025.09.10
도구의 도입은 혁신이 아니다 (1)	2025.09.05
AI인권, 나올 게 나오고 있다... 벌써... (4)	2025.08.25
K-AI, 무엇을 준비해야 하나 (10)	2025.08.21

제라키엘의 덕질 world

왜 이게 이제야 나오고 있어... LLM의 평가방식의 문제

'단상 > 기술' 카테고리의 다른 글

티스토리툴바

왜 이게 이제야 나오고 있어... LLM의 평가방식의 문제

'단상 > 기술' 카테고리의 다른 글

'단상/기술' Related Articles

티스토리툴바