LLM학습, RL이 망각이 적다고?

https://www.aitimes.com/news/articleView.html?idxno=202397

MIT “AI 모델 미세조정에서 강화 학습이 망각 적어” - AI타임스

인공지능(AI) 모델을 미세조정할 때 생기는 ‘치명적 망각(catastrophic forgetting)’, 즉 이전에 학습한 능력을 잃어버리는 문제를 줄이기 위해

www.aitimes.com

신기한 기사가 나와 일단 스크랩.

망각 (치명적 망각 : Catastrophic Forgetting) 은 모든 AI 전 분야에서 나타나는 매우 골치아픈 문제다. 모델은 언제나 변화하는 환경에 맞춰 추가 학습을 해야 하는데, 학습을 하게 되면 예전 기억을 잃어버리는 문제가 생긴다. 이에 대한 가장 효과적인 방법은...

모든 데이터를 축적해놓고 재학습 하는거다. 물론 저장 비용과 학습 리소스가 점점 늘어나는 문제가...

상용 모델을 내 목적에 맞춰 튜닝하는 데에도 이러한 문제가 생긴다. 대표적인 게 도메인 파인튜닝. 이런 추가 학습 시에 모델이 망가지는 경우도 빈번하고, 망가지면 그걸 탐지하는 것도 일이다. 이건 정말 평가 데이터를 축적하는 방법 말곤 딱히 뽀족한 수가 없다. 그래서 망각 문제는 심각하다. 하지만 또 한편으론, 그래서 이게 해결될 수 있는가 하면,

현존하는 가장 최고의 지능인 '인간지능'으로도 망각이 나온다. 이건 원래 해결이 불가능한 문제다. 최선은, 필요한 정보와 불필요한 정보를 구별하는 것이겠지. 그거도 지금은 안 된다.

강화학습의 기본 원리는 랜덤 탐색과 보상 (Reward) 부여로 피드백을 주는 것이다. 현재의 모델 기분으로 랜덤 탐색을 하므로, 이 탐색의 정도와 깊이를 조절하면 모델을 천천히 쉬프트 시킬 수 있다. 다만 정답을 찾으러 깊이까지 탐색하다보면 길을 잃어버리는 현상, 즉 발산이 일어나기 때문에 불안정한 면이 있다. 이걸 잘 조절하면 모델의 현재 상태를 유지하며 학습이 가능할 수 있다.

LLM의 강화학습, RLHF로부터 유도된 DPO의 경으 직접적으로 기존 모델을 기준점으로 삼아 너무 모델이 발산하지 않도록 규제하기도 한다. 이런 부분을 고려하면 확실히, 잘 튜닝된 강화학습은 SFT보다 망각을 줄이고 안정적일 수 있다.

SFT는 Supervised Fine Tuning의 약자로, 간단히 말해 정답을 외우는 학습방식이다. 가장 기본적인 학습방식인데, 정답을 외워버리는 만큼 이는 덮어쓰기의 로직에 가깝다. 이것이 망각을 일으킨다는 사실은, 아마 평범하게 고등학교 다니고 수능 공부를 해봤다면 모두 이해할 것이다.

그런 점에서 이 결과는 어느 정도 타당성이 있어보이며 의미있는 결과로 보인다.

'AI > LLM' 카테고리의 다른 글

Attention 만 있으면 된다고 했자나... (0)	2025.10.28
AI Brain Rot... 데이터가 부족한 게 아니라 학습 방법이 정립이 안 된 것 (1)	2025.10.28
내 작업용 챗봇 만들기 02 - Notebook LM 기능 체험하기 (12)	2025.08.18
내 작업용 챗봇 만들기 01 - ChatGPT vs Notebook LM (5)	2025.08.18
LLM, 기억에 대한 고민 (10)	2025.08.13

제라키엘의 덕질 world

LLM학습, RL이 망각이 적다고?

'AI > LLM' 카테고리의 다른 글

티스토리툴바

LLM학습, RL이 망각이 적다고?

'AI > LLM' 카테고리의 다른 글

'AI/LLM' Related Articles

티스토리툴바