K-AI, 무엇을 준비해야 하나

기아 아니다. 기아자동차 아니다.

요즘 뭔가에 우리나라 특색이 붙으면 K-를 붙이곤 한다. K-POP이라든지 K-Movie라든지... 오래된 예로는 K-민주주의가 있다. (독재라고 읽으면 되던 그거...)

그렇다. 몇가지 좋은 사례들이 있딘 하지만 많은 경우 K-가 들어가면 상서롭지 못한다. 모든 것을 욕하는 나라, 특히 자국 까는게 국민 스포츠인 나라답게 비하 용 드립으로도 애용된다. 그래서.

K-AI는 자랑이 될까 자조가 될까.

역시나 국가에서 AI밀어붙이기 시작하니 밥숟가락 얹는 기사들이 많이 보인다. AI? 우리도 해조해조 하는 기사들도 많이 보인다. 어떤 건 나름 타당한 근거로 설득력 있게 말하는 반면 어떤 건 영 믿음직하지 못하다. 소버린 AI가 목표지만 소버린이 뭔지도 정의되어 있지 읺고, 버티컬 AI가 중요하다지만 어디에 수직으로 세울지는 저마다 의견이 다르며 각론으로 들어가면 다들 말이 다양하다.

그보다 났다고는 말 못하겠다. 나도 우물안 개구리일 뿐이니까. 단지 이 우물에서 보이는 하늘을 논해보자. K-AI가 기아에 빠져 고사당하지 않도록.

AI의 핵심은 데이터다. 그건 만고불변의 진리다.

https://www.chosun.com/economy/industry-company/2025/08/10/7DVEHF76CRA37BD3HF3P5TCLW4/

‘구글 지도반출’ 결정 한번 더 유보…한미정상회담 후 결론

구글 지도반출 결정 한번 더 유보한미정상회담 후 결론

www.chosun.com

구글이 왜 이렇게 징하게 굴까. 데이터는 힘이기 때문이다. 우리나라가 비싼 돈 들여 지도 데이터 만든것도, 구글이 땡깡부리며 그거 공짜로 내놓으라고 협박하는 것도, 데이터는 힘이기 때문이다.

데이터가 부실하면 연구자로서 빡돈다. 하지만 없으면 시작도 못한다.

현재 LLM용 데이터라면 이미 공공 사이트에 상당한 규모로 구축되어 있고, 허깅 페이스에도 해외 데이터를 한글화 한 것이나 한국어 자체 데이터 등 다양한 것들이 많다. 하지만 그걸로 충분할까? 아니다.

현재 본격적으로 AI에이전트 경쟁이 이루어지고 있다. 어플리케이션의 시대고 AX의 시대라고들 한다. 따라서 필요한 건 실제 워크플로우와 연계된 현장 데이터이다. 하지만 사실, 이걸 하자고 하는 것도 이미 늦었다.

데이터 싸움은 작년에 끝났다. 이미 빅테크들의 모델들은 한국어 데이터도 꺼억 했고, 이 모델들의 한국어 실력은 네이티브 귀싸대기 후려팰 수준이다. 도메인 데이터는 사실 변경에서의 각개전투라 대세를 바꾸기엔 역부족이다. 막말로, 지금 AI사업들로 SI업계 대호황이라는데 MS가 오피스마냥 On-prem 모델 뿌려버리면 어떻게 될까...

어차피 지금 당장은 현장도 에이전트에 맞는 데이터 그딴 거 없다. 진격의 거인이 벽을 두드리는 순간 바스라질 운명이다. 다행인건 우리나라 B2B시장이 그 정도로 먹음직스럽진 않을 거라는 것.

그럼 소버린 AI는 물건너갔나? 버티컬도 무린가? 아니다.

중요한 건 여전히 데이터다. 지금은, 데이터를 만드는 기술이 더 중요하다. 작년까지 데이터 구축이 사업이었다면, 지금은 데이터 구축기가 사업이 되어야한다.

작년에 한창 모델 증류 (distillation)이 흥했었고, 그 결과 지금은 소형 모델들도 상당히 고성능이다. 원래의 모델 증류의 목적은 대형 모델의 성능을 소형 모델에 이식하는 것이다. 지식의 전이다. 하지만 LLM에서는 다르다. 왜냐하면, 프롬프팅에 따라 학습 데이터와 다른 분포의 데이터를 만들 수 있기 때문이다.

물론 원래의 학습 데이터와 다른 분포의 데이터라면 정확성은 떨어진다. 하지만 약간의 사람 검수 만으로 양질의 데이터 구축이 가능하다. 전문가가 직접 만드는 것보단 떨어지지만, 전문가가 직접 만드는 것 보다 몇 건 검수하는 정도로 끝내는 게 훨씬 싸다. '정답'을 만드는 룰을 빠르게 찾아내, 그 룰에 따라 데이터를 생성할 수 있다면, 그 데이터로 학습시킨 모델은 사람의 수준을 빠르게 쫓아갈 수 있다.

작년에 빅테크들이, 그리고 선구자들이, 넷 상에 이미 AI데이터들이 넘쳐나 모델의 발전이 한계에 이르고 있다며 징징댔고 지금도 AI데이터가 사람의 말투까지 잠식하고 있다는 말이 나오고 있다. AI가 자체 생산한 AI 데이터를 학습하면 모델 붕괴가 난다는 말도 있다. 다 맞는 말이다. 하지만 사람이 뱉은 말을 사람이 학습해도 모델 붕괴는 나지 않는다. 아니, 간혹 모델 붕괴된 사람도 없진 않지만... 왜냐하면 언어는 기본적으로 커뮤니케이션의 도구이기 때문이다.

알파고는 스스로, 자기들끼리 무수한 바둑을 두며 학습했고 엄청난 성능을 달성했다. LLM도 충분히 가능성이 있다. 일부의 데이터들을 사람들이 검수해, 끊임없이 align을 시킨다면. 그래서 지금도 LLM들은 발전중이다.

이제 데이터를 사람이 만들고 검수할 수 없다. 우리나라는 그렇게 사람이 넘쳐나지도 않고, 데이터 만드는 사람이 늘어나면, 요즘은 오히려 품질에 문제가 생긴다. 모든 사람의 언어능력이 뛰어나지도 않고, 실수나, 혹은 악의에 의한 오염도 발생하기 때문이다. 또한 일반 사람의 가치관보다 모델의 중립성은 더 엄격히 요구되므로 그로 인한 갭도 있다. 사람은 롤을 하면서 부모님의 안부를 물어도 되지만 챗GPT는 그랬다간 뉴스 기사가 난다.

결국 LLM을 통한 데이터 생성 방법이 필요하다. 그러려면 데이터를 워크플로우에 맞게 만들기 위한 프롬프팅 기술도 필요하고 데이터의 자동 검증도 필요하다. 모델이 제기능을 할수 있을지 자동 평가도 필요하다. 그 모든것들은 다.

이미 있다.

중요한 건 이를 솔루션화, 그리고 고도화 하는 것이다. 프롬프트로 데이터 만드는 걸 자동화 했다면, 다음엔 프롬프트를 만드는 걸 자동화 해야 한다. 더 적은 데이터로 align하는 기술도 필요하다. 검수자의 자연어 코멘트를 모델이나 데이터에 내재화 할 방법도 필요하다.

챗GPT도 약한 부분 하나가, 히스토리 데이터를 개인화용 데이터로 쓰는 부분이다. 여기서 문제는, 자기가 환각 (Hallucination)으로 오답변한 내용을 다음에 참고하여 답변한다는 것. 채팅에서 사용자 반응을 바탕으로 데이터의 활용성을 재검토하는 기술도 필요하다.

이 모든 것들이 굉장히 엔지니어링 영역에 가까운 기술이며 뭔가 뉴스 기사로 내보일만한 큼직한 것들이 아니다. 실 서비스의 노하우 같은 영역이다. 하지만 실제 활용에 있어서 대단히 중요한 기술이며, 서비스 해보지 않고서는 개발할 수 없는 영역이다.

내가 괜히 우리나라 AI업체들이 서비스 안한다고 뭐라 하는 게 아니다. 저런 세세한 기술들이 없으면 LLM은 장난감일 뿐이다.

그냥 LLM이 사람처럼 흉내만 내도 다들 '우와~' 해줬던 건 이미 2-3년 전 이야기다.

지금은 엄격한 도덕성 검증까지 다 클리어하지 못하면 서비스 하기도 무서운 시대가 왔다. 국내 업체들이, 아직 준비가 덜 됬다며 늑장을 부리는 사이 이미 허들은 갑절로 높아져 있다. 사용자들의 눈높이는 뛰어올랐도, 잘못 답변 한두번만 해도 뉴스 기사가 쏟아져 나온다.

그런데 좀 더 에이전트 개발하고 출시한다고? 더 욕먹을텐데?

그거 개발 다 끝나면 해외 업체들은 이미 그 다음 스테이지로 나아가 있을 거다.

무조건 AI 모델이, 서비스가, '성장하는 궤도'를 빨리 타야 한다. 그러지 못하면 격차는 더 빠르게 벌어질 것이다.

23년 이슈는 모델이었다.

작년은 데이터였다.

올해는 에이전트, 즉 본격적으로 일에 써먹자이다.

내년엔? 이미 AI 산업의 핵심은 어플리케이션이고, 빠르게 어플리케이션으로 확장 가능한 프로세스가 새로운 트렌드가 될 거라고 본다.

https://www.aitimes.com/news/articleView.html?idxno=201644

[8월20일] "AI 개발에 박사 학위 필요 없어...응용 분야가 더 유망" - AI타임스

최근 미국에서는 대학 졸업생들의 취업이 점점 어려워진다는 소식이 들여오고 있습니다. 여기에 최근 메타가 슈퍼인텔리전스 랩 멤버들에게 수억달러의 몸값을 제시했다는

www.aitimes.com

물론 모델 하지 말고 데이터 하지 말자는 게 아니다. 그건 기초다. 거기에 대한 이해와 역량 없이 다음 단계로만 나아가면 기초가 부실한 부실공사가 된다. 하지만 지금 중점을 둘 부분은 아니다.

중요한 건, 거대한 뭔가 하나를 만들어 놓으면 오랫동안 그거 덕을 보는 시대가 끝났다는 것이다. 변화에 따라 필요한 것이 나올 수 있는 생태계와 인프라, 프로세스, 프레임워크가 필요하다는 것이다. 마치 전근대 사회에는 창고에 막대한 금은보화를 쌓아놓는 게 '부'였지만, 산업화 이후에는 언제든 물건을 찍어낼 수 있는 '공장'이 '부'가 된 것과 같다.

따라서 소버린 AI는, LLM을 예로 들자면 '한국어 잘하는 모델 개발'로는 이제 씨알도 안 먹힌다. 이미 오픈소스 모델들도 한국어 잘하기 때문이다. 어떤 모델이든 한국어 성능을 갖추기 위한 탄탄한 한국어 데이터셋, 수백 GB에서 수 TB갖추는 것도 아니다. 한국의 도메인 데이터를 빵빵하게 모아놓는 것도 이미 기술 우위를 보장할 수 없다.

모델을 빠르게 도메인에 적응시킬수 있는 파이프라인, 그리고 그걸로 어플리케이션을 빠르게 출시할 수 있는 파이프라인, 그것이 스스로 고도화 될 수 있도록 학습을 자동화하는 파이프라인이 앞으로의 경쟁력이다.

그러니, '우리한테 필요한 AI해줘~' 라는 칭얼거림은 이미 늦었다. 뛰어난 최적화 기술로 공정 라인을 향상시키고, 뛰어난 에이전트로 사업 프로세스를 자동화 시켜도, 정작 생산해야 할 물건이 해마다 바뀌고 업무 프로세스도 수시로 바뀐다. 최적화 해둔 모델이 순식간에 쓰레기가 될 수도 있는 것이다. 그러니, 남이 해주길 바라는 게 아니라 스스로 바뀌어야 한다. 적응할 수 있도록.

개인들은 이미 업무에 AI를 가져다 쓰고 있다. 인력 시장은 살아남기 위한 경쟁이 치열하니까. 지금에 안주하고 적응하지 못하는 기업은 도태될 것이다.

'단상 > 기술' 카테고리의 다른 글

도구의 도입은 혁신이 아니다 (1)	2025.09.05
AI인권, 나올 게 나오고 있다... 벌써... (4)	2025.08.25
AI 에이전트의 미래 (5)	2025.08.21
휴머노이드는 껍데기일 뿐... (12)	2025.08.19
범용 AI와 특화 AI의 사이에서 (9)	2025.08.14

제라키엘의 덕질 world

K-AI, 무엇을 준비해야 하나

'단상 > 기술' 카테고리의 다른 글

티스토리툴바

K-AI, 무엇을 준비해야 하나

'단상 > 기술' 카테고리의 다른 글

'단상/기술' Related Articles

티스토리툴바