성공률 중심의 AI 사업의 실패

https://news.hada.io/topic?id=24197

스타트업에게 좋은 소식: 기업들은 AI를 제대로 구현하지 못하고 있다 [유튜브] | GeekNews

MIT의 연구 조사결과 기업 AI 프로젝트가 95% 실패율을 보인다고 하지만, 실제로는 대기업이 AI를 자체 구축하지 못하는 구조적 문제를 드러낸 것대기업들은 내부 IT팀이나 컨설팅 회사를 통해 AI

news.hada.io

이전에도 거의 같은 내용 링크 가져왔던 걸로 기억하는데...

보다가 문득 생각이 들어 글 남겨본다.

내가 경험한 AI 사업들의 기본적인 목표는 성공률이다. 학계에서도 벤치마크 점수로 AI를 평가하고 산업계에서도 도입했을 때 얼마나 정확한지를 가지고 평가한다. 수치는 중요하다. 누구라도 이해할 수 있으니까. 다만 문제가 있다.

정작 AI 좀 만져본 사람은 다들 알 것이다. 숫자는 구라다. 만드려면 얼마든지 만들 수 있다. 가령 예를 들자면, 문제를 쉽게 내면 된다. 그래서 AI쪽에 공인된 벤치마크들이 있지만.

https://brunch.co.kr/@byoungchaneum/85

AI 벤치마크의 역설: '지능'을 측정한다는 것의 함정

벤치마크의 포화, 굿하트의 법칙과 진짜 '지능'을 측정하기 위한 방향 | * 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 게재한 글의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야

brunch.co.kr

https://www.mstoday.co.kr/news/articleView.html?idxno=98773

오픈AI, LLM ‘환각’ 원인 규명…“추측 유도하는 평가 방식 바꿔야” - MS TODAY

[MS투데이] 오픈AI가 대형 언어모델(LLM)의 고질적 문제로 꼽히는 ‘환각(hallucination)’ 현상의 구조적 원인을 짚고 개선 방안을 제시했다. 환각은 모델이 사실이 아닌 내용을 자신 있게 답하는 현

www.mstoday.co.kr

https://news.hada.io/topic?id=20193

최근 AI 모델 발전은 대부분 헛소리 같이 느껴짐 | GeekNews

9개월전에 AI가 실제로 사람을 대체할 수 있을 정도로 코드 보안 분석을 잘 수행할 수 있다고 판단하여 스타트업을 설립함초기에는 GPT-4o에서 Claude 3.5 sonnet으로 변경하자, 보안 취약점 설명과 심

news.hada.io

이미 퍼블릭 벤치마크들의 신뢰도는 밑바닥이다. 당연히 기업의 사용 환경과도 안 맞다. 그래서 대개 과제를 하면 현장에 맞는 벤치마크를 다시 개발한다. 하지만 의미가 없다. 고객이 참여하지 않는 벤치마크는 아무 의미도 없는 숫자놀음일 뿐이고, 참여해도 대개 고객들은 어떤 식으로 벤치마크를 만들어야 할지 가늠하지 못한다.

근본적으로 고객사에서 하는 업무가 시스템화 되어 있지 않고, 워크플로우가 정립되어 있지 않고, 사람의 직관으로 이루어지기 때문이다. 그건 업무가 주먹구구식이라서가 아니다. 그냥 그게 보통이고 정상이다. 특히나 현대 사회에는 대단히 업무란 게 복잡하게 변해왔고, 정형화 될 수 있는 업무는 이미 상당수 자동화 되어있다. 어려운 게 당연한 것이다.

즉, 정형화 시킬 수 없어서 자동화에 실패한 업무를, 좀 더 유연한 LLM이란 기술을 바탕으로 자동화하기 위해 애쓰면서, 정작 그 LLM의 기능을 평가하기 위해 정형화해야 하는 아이러니가 여기에 숨어있다. 그리고 그런 아이러니가 발생하는 이유.

높은 이들이 디테일을 안 보려고 해서다. 그냥 점수로 몇 점으로 퉁치고 싶어하기 때문이다. 중간과정 생략하고 답을 맞추길 바라기 때문이다. 근본적으로 틀려먹은 방식이고, AI사업이 실패하는 이유다.

간단하게 챗 GPT나 제미나이같은 상용 AI만 써봐도 명확하다.

점수는 의미가 있는가? 당신이 하는 일에서, AI의 답변을 채점할 수 있는가?

1. 업무는 문제풀이가 아니다.

보통 AI를 쓸 때 사람이 입력하는 프롬프트를 질의라고 부른다. 보통은 뭔가 물어보고 답해주는 식으로 쓰니까. 하지만 거기서부터 오류다. 만약 당신이 AI를 그런 식으로 사용하고 있다면 매우 잘못 쓰고 있는 것이다.

내가 몇 번 AI를 통해 서베이한 내용들을 참고하길 바란다. 나는 거기서 정답을 찾지 않는다. AI가 답변한 내용으로부터 키워드를 얻어 그것을 물어보며 구체화하거나, 의문이 가는 걸 다시 질의해서 확인하거나 한다. 그리고 그 과정에서 별도로 또 인터넷 검색을 해서 다시 확인하기도 하고, 내가 아는 지식과 맞지 않을 때는 되묻기도 한다.

실제 사용 씬에서는 한 턴으로 끝나는 질의가 없다. 하지만 벤치마크는 한 턴 내지 많아야 두 턴으로 끝난다. 심지어 멀티턴 벤치마크들을 대부분 봐도 첫번째 질의와 두번째 질의가 독립적인 경우가 많다. 왜냐하면 벤치마크에 답변을 바탕으로 다시 질의를 던지는 시나리오는 만들 수 없기 때문이다.

상식적으로 멀티턴 질의에 대한 실질적인 벤치마크는 만들 수가 없다. 왜냐하면 패턴이 너무나 다양하기 때문이다. 예를 들어 질문의 패턴, 즉 태스크가 10가지라고 하면, 2턴만 되도 나올 수 있는 패턴은 10^2 = 100가지다. 3턴은 10^3 = 1000 가지다. 1000가지의 벤치마크 항목을 만들 수 있는가? 미친 짓이다. 그런 건 의미가 없다. 그리고 한 패턴에 대해 하나의 질문만 넣어도 그 패턴을 제대로 평가하지 못한다. 예를 들어 패턴당 10개 질문만 만들어도 이미 10000건의 평가셋이 필요하다.

하지만 대개 업무 관련 AI 질의에서 2~3턴에 끝나는 경우는 거의 없다. 질문이 계속 이어지는 게 보통이다.

그걸 제대로 평가할 방법은 없다. 점수를 내는 게 의미가 없는 이유다. 심지어 저 쯤 되면 사용하는 사람마다 패턴이 다 다르다.

애초에 1턴으로 한정지어도 사람들이 물어보는 패턴이 다르다. 거기에 LLM은 답변을 생성하는 변수가 너무나도 많다.

https://zdnet.co.kr/view/?no=20251015162953

챗GPT, 왜 이럴까…"무례하게 물어봐야 정답률 높다"

최신 대규모 언어모델(LLM)이 무례한 표현의 프롬프트에서 더 높은 정확도를 보인다는 연구 결과가 나왔다. 펜실베니아주립대학교 연구팀이 챗GPT4o를 대상으로 진행한 실험에서 '매우 무례한' 프

zdnet.co.kr

반말/존댓말로도 답변이 달라진다고 할 정도다. 근데 점수를 매기라고? 넌센스다.

애초에 LLM의 성능 평가는 그 방법조차 학계에서 정립을 못하고 있고, 흔히 쓰이는 벤치마크 방식 자체가 생성형인 LLM에 맞지 않는, 옛날 NLU (Natural Language Understanding, 자연어 이해) 쪽에 가까운 내용이 허다하다. 문제풀이 자체가 문장 생성 방식인 LLM을 위한 벤치마크가 아니란 것이다. 그리고 나름 LLM에 맞춰 만든 벤치마크도 실제와 다른 부분이 계속 지적되고 있다.

실제로 점수 내는 건 문제가 같아도 평가 기준을 바꾸는 것 만으로 간단히 올리고 내리고 할 수 있다. 보통 하는 게 질의에 대한 답변을 AI 채점으로 0~10점까지 점수로 매기는 것. 그건 채점자 모델이 무엇이냐, 거기에 프롬프트를, 채점 기준을 뭐로 잡느냐, 점수를 그대로 쓸지 변환해서 쓸지 등등에 따라 달라진다.

https://arxiv.org/abs/2410.21819

Self-Preference Bias in LLM-as-a-Judge

Automated evaluation leveraging large language models (LLMs), commonly referred to as LLM evaluators or LLM-as-a-judge, has been widely used in measuring the performance of dialogue systems. However, the self-preference bias in LLMs has posed significant r

arxiv.org

자기 모델이 만든 답변을 채점할 때 더 관대하다는 내용의 논문이다.

또 하나 중요한 게, 위와 같은 평가방식은 중간값 편향이 발생하는 경향성이 있다. 예를 들면, 사람이 설문조사 할 때도 양 극단값은 잘 안 주려고 하는 경향이 있듯이 LLM도 마찬가지다. 언제나 훌륭한 답변이지만 이러이런 부분이 완벽하진 않아 하는 부분이 있기 마련이고, 그게 점수에 반영된다. 실험적으로 보면 대략 8점 언저리에 수렴하는 경향이 있고, 9점 넘어가는 건 정말로 탁월한 모델이 그런다. 그리고 이 정도 수준의 답변에서는 사람에 따라 평가가 달라지기도 한다.

그런 만큼 사실 저 점수로 9.5점 이상 같은 기준을 세우는 건 우리 사업 파토내자 라는 말과 동의어다. 그런데 저기서 그렇다고 7점 이상이면 정답처리 같은 식으로 하면 어지간한 문제/어지간한 모델에서 95% 이상이 그냥 달성된다. 기본 성능도 많이 올랐기도 하고.

게다가 보통은 On-Prem 환경에서 구축하는 만큼 평가 모델도 좋은 모델 못 쓴다. 그럼 평가 대상 모델이 분간 못하는 오류 유형은 채점 모델도 분간 못한다...

그럼 사람이 채점해? 모델 학습 할 때 최소 10번은 넘게 학습해서 모델 평가하는 걸 다 사람이 하자고?

제대로 채점할 수도 없는 상황인데 점수로 평가하는 것 부터가 넌센스인데, 그 점수를 내기 위한 문제조차 현실과 안 맞는다. 그렇다면 대체 무엇을 위해 점수를 내나. 정확도를 따지나. 정작 업무를 보는 방식은 전혀 그거랑 다를 텐데.

내부가 하느냐 외부가 하느냐가 문제가 아니다. 일단 기업 AI가 문제풀이식으로 평가되는 시점에서 이미 문제가 발생한다.

2. 업무는 혼자하는 게 아니다.

더 근본적인 문제가 바로 이거다. 기본적으로 업무를 지원하는 AI 서비스 또는 AI 에이전트는 혼자 일할 수 없다. 사용자와 협력해야 하고 더 많은 대상들과 연결되어야 할 수 있다. 왜냐하면.

대개의 업무는 한 직원의 책상 안에서 끝나지 않기 때문이다.

심지어 그런 업무조차 AI와 사람이 상호작용을 하며 달성한다. 그런데 AI 답변에 대한 사람의 반응을 무시하는 것 부터가 넌센스다. 사람은 반응하는 존재다. 정형화된 형식으로 질의를 던지지도 않고, 정형화된 형식의 답변이 꼭 항상 정답이 되지도 않는다. 그 질의를 던진 맥락은 어마무시하게 다양하며 그것을 AI에게 모두 던져주지도 않는다. 그리고 그런 만큼, AI가 완벽하게 답변을 해주길 기대하는 것 부터가 불가능한 일이다.

경우의 수가 너무 많다. 그걸 알아서 맞춰주기 바라는 것부터 잘못이다.

이전에 AI 관련해서 이런 문제를 본 적이 있다. AI 에이전트에 질의를 던졌는데, 원래 내용을 좀 변형해서, 예를 들면 기업의 '구매 프로세스'에 대해 질문을 던졌다고 쳐보자. 그럼 구매 담당 부서의 직원과 구매를 진행하려는 다른 부서 직원의 입장에 따라 원하는 답변이 다를 것이다. 그 부분을 찾아내도록 하는 유형의 문제였다. 그러니 아마 정답은 직원 정보를 AI 에이전트에 넣으라는 것이었겠지. 그런데 그게 정말 정답인가? 아니다. 현실은.

그런 변수가 너무나 무궁무진하게 많기 때문에 정답따윈 없다. 저건 그냥 AI 에이전트로 시험 문제 내려고 억지로 만든 거지 실제와는 전혀 다르다. 직원의 부서만 영향을 줄까? 직원의 연차와 숙련도에 따라서도 원하는 답변이 다를 수 있다. 구입하려는 물건의 종류에 따라서도 다를 것이다. PC만 주문하던 부서에서 갑자기 뜬금없이 커다란 금속 가공 기계가 필요한 일이 벌어질 수도 있다. 그럼 또 답변이 달라져야 할 것이다.

그렇다면 가능한 한 모든 맥락을 다 집어넣으면? 컨텍스트가 터지겠지.

상식적인 대안은 일단 아무 방향이든 답을 하고, 그걸 본 사람이 거기에 맞춰 자신이 원하는 방향에 대한 단서를 질의로 넣는 것이다. 한 번에 정답을 뽑으려고 하니 문제가 되는 거다. 사람과 사람이 대화할때도 그러지 않는다.

그런데 왜 AI만은 한 번에 정답을 내야 하는가.

사람 역시 AI의 답변에 맞춰서 대응해야 하고, 그러한 대화 방식을 익혀야 한다.

하지만 많은 경우에, AI에 숙련되지 않는 이들이 보이는 행태는 반대다. 10가지를 물어보고 하나에서 헛소리를 하면 그 다음부턴 에이, 성능 구리네 하며 쓰지 않는다. 답변을 신뢰하지 않는다. 물론 신뢰하란 이야기가 아니다. 하지만 신뢰하지 않아도 쓸 수 있음에도 쓰지 않는 부분을 지적하는 것이다.

사람도 항상 옳은 말만 하지 않는다. 하지만 사람과 사람은 협업한다. 왜 AI를 상대론 그렇게 못 하나. 기본적으로 100점이 안 되는 사람과 100점이 안 되는 AI가 협업을 하는 구조지 어느 한 쪽이 100점이 아닌 것이다. 그렇게 될 수도 없다.

AI 가 정답을 낼 수 없다는 걸 인정해라. 사람도 숙련이 필요하다는 걸 인정해라. 여태껏 나온 모든 시스템과 좋은 툴들 역시 안 맞는 조직에선 죽어도 안 맞고 사용하는데 많은 시간과 노력, 교육이 들었다.

AI가 정답을 내줄 거라고 생각하는 프로젝트는 100% 실패한다. AI가 정답을 만들어줄 수 있다고 말하는 이들은 100% 사기꾼들이다. 온전한 정답을 추구했던 이전의 예측형 AI들 조차 100%는 불가능했다. 하지만 그 불완전한 툴로도 적어도 50%의 확실히 아닌 선택지들만 제거할 수 있어도 사람의 업무는 획기적으로 향상될 수 있었다. 하지만 정작 그런 프로젝트에서도 정답률이 50%라며 시도조차 안 하는 경우가 허다했다. 하물며 생성형 AI는 더 엉망일 수밖에 없다.

일은 사람이 하는 거다.

https://www.joongang.co.kr/article/25165807

챗GPT에 변호사가 당했다…알려준 판례 제출했더니 '가짜' | 중앙일보

30년 경력의 미국 변호사가 법원에 내는 서류준비 과정에서 생성형 AI(인공지능)서비스인 챗GPT에 의존했다가 법원 청문회에 회부될 처지가 됐다. 27일(현지시간) CNN과 뉴욕타임스(NYT)에 따르면 케

www.joongang.co.kr

변호사가 당한 게 아니라 변호사가 무능한거다. 이게 AI에 대한 교육이 제대로 되지 않은 결과다. 챗GPT 탓을 하든 말든 책임은 본인이 지는 거다. 그리고 저딴 식이 아니더라도 챗GPT 잘 쓰는 변호사들 수도 없이 많을 거다.

사내의 AI 프로젝트도 마찬가지다. 답변이 틀리면, 틀린 답변을 그대로 가져다 쓸 우려가 있어? 그야 안 틀리는 게 제일 좋긴 하지. 하지만 그건 불가능하다. 챗GPT를 도입해도 불가능하다. 불가능한 걸 어쩌란 건가. 있는 걸 잘 쓸 생각을 해야지.

3. 악마는 디테일에 있다.

AI가 아무리 발달해도, 회사의 업무 정보를 모조리 다 반영해 100% 정확한 답변을 할 수 있게 되어도 실제 업무에서의 정확도는 박살날 수밖에 없다. 왜냐하면 개별 직원들의 업무에는 또다른 디테일이 있고, 그것이 회사의 정보 시스템에 반영되기 전에 질의할수도 있기 때문이다. 아니, 그런 일이 흔하다. 매우 일상적이다. 왜냐하면 정보 시스템은 이미 과거의 정보고, 업무는 새로운 일이기 때문이다.

그러니까 일을 자동으로 다 해주는 AI 에이전트 같은 개소리 좀 집어쳐라. 회사에서도, AI 에이전트 구축 따위 생각도 말아라. 왜 뛰기도 전에 날려고 하는가.

AI 에이전트와 관련된 기술은 빠르게 발전하고 있는 게 사실이다. 하지만 모두가 안다. 학계에 존재하는 기술이 산업에 도입되기까지 얼마나 많은 시간과 노력이 들어가는지. 그것이 현실의 복잡성을 반영해 안정화되기까지 얼마나 어려움이 많은지. 그런데 요즘은 AI 붐에 들떠서 그걸 잊어버린 거 같다.

지금 연구되고 있는 기술이고 검증 안 된 기술이다.

대부분의 업무, 특히 LLM이 필요로 하는 추상적이고 복잡한 업무는 더더욱 디테일에는 복잡한 맥락들이 존재한다. 예를 들어, 가장 기본적인 RAG QA가 완벽하게 구현된다 하더라도 이것이 업무에서 완벽한 정합성을 보일 수는 없다. 이것이 완벽하게 보장하는 건 규정이나 개념 등에 대해 완벽한 사전 역할을 하는 것 뿐이다. 물론 업무 중에 개념의 사전적 정의를 찾아볼 일이 적지는 않지만 업무의 본질은 아니다. 상황에 대해 규정을 해석해 달라고 할 때도 있고, 개념과 개념들을 응용해 무언가를 도출해야 할 때도 있다. 복잡한 해석이 들어가야 할 때도 있다. 그런 내용들이 비언어적인 컨텍스트에 녹아들 때도 많다.

AI가 틀리는 건 그런 사전적 정의보다는 디테일에 있기 마련이다. 그래서 정답률이 올라가도 정작 쓰는 사람들 입장에선 야, 그거 몰라서 내가 물어보겠냐 라고 답할 만한 상황이 허다하다. 물론 그거조차 틀리는 경우도 허다하지만.

그러니까 맞출 수 없는 정답을 맞추려고 하는 건 AI 도구를 쓰레기로 만드는 길이다. 맞출 수 없다는 걸 인정해야 한다. 어차피 실제 현장에 가면 더욱 맞출 수 없음을 인정해야 한다. 그렇다면 기를 쓰며 문제풀이 잘하게 하는 것도 전부 쓸모없는 짓이다.

AI 챗봇을 쓰는 가장 근본적인 이유는 정답을 찾기 위해서가 아니다. 단서를 찾기 위해서다. 내가 모든 경우의 수를 다 고민하며 찾아나가는 건 매우 힘든 일이다. 하지만 일단 AI로 대충이라도 뽑아놓고 보면 내가 뭘 더 찾아봐야 할지, 어떤 건 무시해도 되는지, 혹은, 내가 생각 못한 다른 아이디어는 없을지 여러가지를 얻을 수 있다.

열매를 얻기 위해서가 아니라 씨앗을 얻기 위해서다.

실제 내가 챗GPT를 써봐도 전문적인 영역에서는 틀리는 경우가 종종 보인다. 체감상 정확도는 90% 랄까. 디테일하게 들어가면 더 많이 틀린다. 그리고 소설처럼 더 비정형화된 문제에 대해서는 사실 50%도 못 된다. 하지만 난 소설 쓸 때 굉장히 AI를 잘 써먹고 있다. 왜냐하면 스토리가 막혔을 때, 적당히 질문으로 던져주며 새로운 아이디어를 찾기 대단히 좋기 때문이다.

이름 지을때도 좋고.

때론 AI에게 물었을 때 답변으로 나온 것과 전혀 다른 내용을 가져다 쓸 때도 있다. 하지만 그거도 AI에 물어봐서 떠올린 것이다.

AI는 울림판이다. 정답을 가르쳐주는 선생이 아니다. 정답은 내 머릿속에만 존재할 수 있다. 왜냐하면.

그 디테일을 모두 아는 건 나지 AI가 아니기 때문이다.

지금도 AI가 아니라 내가 직접 글을 쓴다. 하지만 자료를 찾을 때, 단서를 찾을 때는 AI가 매우 유용하기에 항상 옆에 켜두고 사용한다. 그게 정상적인 사용법이다.

이 글을 쓰는 건 면피하려는 게 아니다. AI전문가는 아무것도 못해염, 이런 게 아니다. 가장 기본적으론, 자꾸 풀 수 없는 문제를 풀라고 하는 게 빡쳐서이기도 하지만, 근본적으로 위에 말한 저런 걸 무시하기 때문에 AI 프로젝트가 엎어지는게 계속 눈에 들어오기 때문이다. 엎어진다는 건 실패해서 프로젝트가 파토났다는 게 아니라, 그래, 성능 그렇게 나오는 건 오케이 하고는 이어지지 않고 끊어지는 걸 말한다. 혹은 넘어는 갔지만 고객에게서 계속 볼맨소리가 나오는 걸 말한다. 그렇게 되면 나중엔 분명 도입한 도구를 안 쓸 것이다. 그리고 회사는 또 그런 식으로 프로젝트를 반복한다.

대체 왜 곱절로 힘들여 실패하는 길로 가야하는가. ㅅㅂ...

명확한 성공 사례가 있는데 말이다.

저따구로 하니까 기업 AI 프로젝트가 95% 실패율이 나온다고 하는 거다. 내가 모든 AI 프로젝트를 본 건 아니지만 적어도 다분히 저런 요소들이 들어갈 것이다.

실제로 난 많은 AI 회의론자들을 봤다. AI에 대한 여론은 LLM 이전에도 이후에도 양극단에 있다. 누구는 너무나 말도 안 되는 장밋빛 미래를 말하고, 누구는 정확도 구리다면서 그딴 쓸데없는 걸 왜 하냐고 한다. 전자는 터무니 없는 성능 요구치를 밀어붙여 골치아프고, 후자는 안 도와주고 까기만 한다. 둘 다 나에게는 재해다.

회의론자들에게 묻고 싶다. ㅅㅂ 그럼 평생 도입 안하고도 정말 괜찮겠어? 하나둘 밖에선 성공 사례들 나오고 혼자서 경쟁력 뒤쳐질텐데?

물론 그런 회의론자를 양산하는 게 바로 극단적 낙관론자들이다. 그러니 둘 다 한숨이 나온다. 현실은 그 중간 어딘가에 있다.

간단히 말하면.

AI는 당연히 그 업계에 숙련된 전문가를 못 따라간다. 제발 좀 전문가 눈으로 보고 기대에 못 미친다고 까지 마라. 초장에 그 수준 달성할 수 있으면 그 업종 자체가 전문성이라곤 쥐뿔도 없는 단순 노가다 일이란 거다. 정말로 자기 일이 그런 일이라고 생각하나? 하다못해 공장에서 단순작업 하는 것도 상당한 숙련이 필요한 일이고, 인터넷 댓글 알바조차 디테일이 있다. 그래서 전자는 아직 로봇이 못하는 부분도 많은 거고 후자는 어설프게 AI 댓글 쓰다가 사람들에게 걸리는 거다.

AI의 목표는 완벽한 일을 하는 게 아니라 인간의 일을 조금이라도 줄이는 거다. 정확도가 시궁창이라도 10의 일을 9로만 줄여도 이점이 있는 것이다. 1억원 들여 100만원어치 일밖에 못 줄일 수도 있다. 흔히 AI를 포함, 기술개발 사업이 엎어지는 근본적인 이유다. 그래서 난 여기에 대고 ROI좀 그만 따져라라고 외치는 중이다. 왜냐하면. 그 100만원의 원가 차이로 누군가는 사업을 접어야 할 수도 있기 때문이다. 그 100만원이 누적되면 남들은 따라가지 못하는 절대적인 격차가 되는 일이 허다하기 때문이다. 그 100만원 어치 기술이 1000만원 어치, 1억원 어치, 심지어 100억원 어치 기술의 발판이 될 수도 있기 때문이다.

우리나라는 원래 기술이 형편없는 후진국이었다. 하지만 필사적으로 기술을 익혔고 한강의 기적을 일으켰다. 세계 경제 순위에서 높은 수준을 달성했고, 후진국으로서 선진국이 된 얼마 없는, 그리고 혹은 마지막일지도 모르는 국가라는 소리까지 들을 정도에 이르렀다. 하지만 지금은 어떤가. 이미 주요 산업들의 경쟁력이 모조리 밀리고 있다.

왜?

한국 조선은 사실 국가 수준에 맞지 않은 인건비로 겨우 버티던 게 드러났다. 코로나 이후 조선업에 종사하던 전문 기술자들이 쫓겨나 다른 곳에서 일을 찾다가 노동 시간에 비해 얼마나 대우를 못 받고 있었는지 드러났고, 결과적으로 조선업에 사람이 부족해 산업이 망할 뻔 하기도 했다. 그거도 지금 해결된 게 아니라 아직 안 망했을 뿐이다.

https://www.mt.co.kr/industry/2025/04/10/2025040913324859351

1만명 부족한데 늘어난건 0.3만명…조선 인력부족 여전 - 머니투데이

지난해 조선업계 인력이 9% 늘어난 것으로 집계됐다. 증가폭은 전년보다 두 배 가까이 높지만 조선소 일감 규모를 감안하면 인력난은 여전히 심각하다. 외국인 고용 확대로 눈앞의 인력난에 대

www.mt.co.kr

한국 경제에서 매우 큰 비중을 차지하고 있는 건설업은 건설비 못 맞춰서 순살아파트가 지어지는 마당이다. 그런데 그래서 시장가가 너무 싸게 책정되었느냐 하면, 무슨 소리. 아파트 값은 하늘을 찌르는 중이다.

모두 한국 경제가 잘 나갈 때, 이대로만 하면 돼 라는 마인드로 안이한 마음이 있었기 때문이라고 본다. 기술 개발에 필사적이지 않았고, 업무의 방식을 바꾸는 데에 열심이지 않았다. AI사업의 가장 큰 장벽이 그거다. 평화롭게 잘 일하던 직원들에게, 그 방식은 틀렸으니 일의 방식을 바꿔야 한다고 주장해야 하는 일이기 때문이다. 그러니 현업 담당자는 어쭈, 그럼 우리보다 잘 할 수 있어? 라고 나올 수밖에 없다. 하지만 그 본질은, 어차피 이대로 가면 다 죽는다는 현실이다.

윗사람들도 최신 기술 가지고 신사업 했다고 뉴스 기사 나가는 게 중요하지 그게 실질적으로 회사의 업무능력을 얼마나 개선할 수 있는지에 관심이 없다. ㅅㅂ, 사진 찍을 때나 찾아오지 과제 착수할 때는 거의 보이지도 않더라, 보통.

그러니까.

기업 AI 도입의 구조적 실패 원인

위 링크 본문에서 가져오면,

기업 AI 도입의 구조적 실패 원인
내부 IT 시스템의 고질적 문제: 대부분의 기업 내부 IT 시스템이 품질이 낮으며, Ernst & Young이나 Deloitte 같은 컨설팅 회사를 고용해도 문제가 두 배로 증가
Apple도 소프트웨어 개발에 실패: 무한한 자본과 인재 접근성을 가진 Apple조차 캘린더 앱에서 매일 버그 발생
- 일반 기업이나 IT 부서가 좋은 소프트웨어를 만들기 어려운 현실을 보여주는 사례
조직 내 정치적 갈등: 대기업에서 정교한 소프트웨어 배포 시 여러 팀이 관여하면서 정치적 싸움과 영역 다툼 발생
- 컨설턴트들이 데이터 과학팀, 고객지원팀, IT팀 등을 중재하며 요구사항 문서 작성
- 하지만 컨설턴트들은 실제 소프트웨어 구축 기술 전문성 부족
레거시 시스템의 한계: 기업 내부 시스템이 너무 오래되고 사일로화되어 있어, 외부 컨설팅 전문성과 소프트웨어 구축 역량이 동시에 필요
최종 결과물은 위원회가 디자인한 낙타 같은 형태로, 실용성 없는 타협의 산물

내 경험상, 대기업 기술조직은 최신 기술 트렌드에 뒤쳐지기 쉽다. 왜냐하면 그런 기술 트렌드를 센싱하고 계속 학습하는 걸 기업은 비용으로 보기 때문이다. 교육의 문제가 아니다. 기술은 실제로 해 봐야 익혀진다. 그리고 해보더라도, 또 나이든 사람은 새로운 걸 익히기 힘들다. 그건 머리가 굳어서가 아니라, 그거 안 해도 지위에 문제가 안 생기고, 또 오히려 그런 거 말고 할 일이 많기 때문이다.

나이 40~50 먹은 엘리트 엔지니어의 성공사례가 없다. 40~50 먹은 실무하는 엔지니어가 있다면 만년과장이다. 우리 회사에도 많다. 근속 20~30년차 축하한다고 사내 게시판에 뜨는 걸 보면 책임급이더라.

기술 임원 시켜주면 달라질까? 내가 아는 범위에서는 기술 임원의 일은 대부분 실제 기술의 구현과 적용이 아니라 조직 내 기술 컨설팅이었다. 그리고 리더가 최신 기술을 모르면 옛날 방식으로 해결해도 별로 문제도 없다.

그리고 신기술에 대한 불신이 강한 것도 문제다. 고전적인 ML 기술, 통계학 등등에 익숙한 사람들이 딥러닝 무시하는 경우 많이 봤다. 하는 말들은 구구절절이 맞는 말들이다. 그 사람 시대에는 그 기술이 구렸던 게 맞거든. 리소스 오질나게 많이 들어가는 것도 맞다. 그리고, 그런 말 하는 사람들은 이제와서 신기술 안 배워도 자기 은퇴할 때 까지 어떻게든 먹고 살겠지.

ㅅㅂ 난 아니라고.

그리고 지금 앞으로 대한민국을 이끌어갈 세대들도 아니다. 하지만 중요한 건, 의사결정을 하는 건 우리들이 아니란 거다.

왜 기업 내의 기술조직이 신기술에 뒤쳐지는가. 전문성이 부족한가. 신기술을 따라갈 이유가 없는 올드비들이 많아서다. 그들을 잘라야 한다는 말이 아니다. 그들이 움직여야 할 이유를 위에서 만들어줘야 한다는 것이다. 그러려면 회사의 경영진들이 기술에 빠삭해야 하고, 단순히 밖에서 들려오는 그럴싸한 용어들 (대표적으로 에이전트...) 에 휘둘리지 말고 디테일을 볼 수 있어야 한다. 그리고 그런 조건 하에선, 나이 들었어도, 심지어 전공 아니더라도, 깊이있는 이해와 뛰어난 인사이트를 보이시는 올드비들도 많다. 본인이 하려고만 하면 할 수 있다. 원래 뇌는 오히려 4~50대에 절정이란 연구도 있다.

https://m.dongascience.com/news.php?idx=60072

"뇌의 전성기는 40대 중반부터 50대 중반까지"

연합뉴스 제공 나이가 들면 기억력이 감퇴하고, 머리도 나빠지는 느낌이 든다. 과연 그럴까. 일본의 의사이자 뇌 MRI(자기공명영상장치) 진단 전문가 가토 도시노리 쇼와대학 객원교수는 그렇지

m.dongascience.com

실제로 이제 40을 코앞에 둔 나로서도 공감이 된다. 기억력은 확실히 떨어진다. 하지만 그건 기억력이 부족한게 아니라 이미 기억할 것, 기억하고 있는 게 어마어마하게 많기 때문에 이를 유지하는 데에 엄청난 리소스가 들고 있기 때문이다. 새로운 걸 배우려면 기존에 무언가를 버려야 한다. 그렇기에 올드비들은 확신이 없으면 움직이기 힘들다.

하지만 더 방대한 정보를 연결해 두었기 때문에 더 탁월한 이해력을 가지고 있다.

다만 더 방대한 정보를 이미 많이 연결해 둔 탓에 새로운 것도 기존의 자신의 예전 지식을 기반으로 이해하려고 하는 버릇이 있다.

아무튼.

위에 문제를 정리하면 대략 3개 정도가 보인다.

내부 기술 조직의 역량 부족

이건 앞서 잔뜩 설명한 이유 때문에 발생하며, 그래서 머리 빠릿빠릿한 신흥 스타트업을 통해 신기술을 개발하는 게 확실히 도움되는 측면도 있다. 다만 근본적으로 경영층의 기술에 대한 이해와 비전이 가장 크다고 본다. 외부에서 하는 건 그거 나름의 난점들이 엄청나게 많고 이미 그 부분에 대해서는 내가 정리한 글들도 많다.

조직 내 정치적 갈등

이건 기술 도입에 대해 경영진, 조직 리더의 비전의 문제다. 그에 대한 명확한 비전이 제시되고 거기에 대해 공유되어야 하부 조직들이 움직인다. 하지만 대충 그냥 해봐 하는 식으로 던지면 움직일 이유가 없다. 그리고 조직장이 그 사업의 디테일에 대해 신경도 쓰지 않는다면 협력할 이유가 없다. 당연히 최고 경영자가 나와서 마누라 자식 빼곤 다 바꿔라 하는 수준의 추진력을 보여야 따라오기 마련이다.

하지만 난 내가 속한 조직의 핵심 사업이, 사내 대상으로 하는 건데도, 위에 있는 경영진이 시켜놓고 다른 유관 부서들의 협조를 요청해두지 않아 팀장들만 쌔빠지게 뺑이치는 걸 봤다. 망할...

레거시 시스템의 한계

매우 중요한 문제다.

https://it.chosun.com/news/articleView.html?idxno=2023092145865

"국가인권위 조사 중인 한컴독스...AI·장애인 모두 가로막는 구조" [공공DB의 과제⑥]

‘AI 초강국’을 국가 전략으로 내세운 이재명 정부는 최근 5개 컨소시엄 중심의 소버린 AI(국가대표 AI) 정예팀을 선정하고 본격적인 AI 초강국 체제에 박차를 가했다. 하지만 정작 AI를 고도화하

it.chosun.com

제발좀 바꿔라. 한컴도 다 바꾸고 쓸데없는 야매 서식도 못 넣게 바꿔라. 가장 좋은 방법은 사내의 모든 문서를 전부 마크다운으로 바꾸도록 하는 것이다. 아주 그냥 법제화 시켜라, 제발.

우리나라 기업은 LLM 챗봇 기반의 AI 사업 못한다. 할 자격이 안 된다. 일단 우선해야 할 건 데이터 사업이 먼저다. LLM 챗봇의 성능의 가장 근본적인 부분은 RAG이고, RAG란 문서를 참조하는 게 핵심이다. 그런데 그 참조할 문서가 엉망이다. 우리나라의 문서들 보면 전부 쓸데없는 야매 서식들 천지라 AI 가 해석을 할 수가 없다. 그나마 서식이 정해져있으면 몰라도 예쁘게 만든다고 이리 바꿨다 저리 바꿨다 한다. ㅅㅂ 그래, 밖에 나가는 건 그럴 수 있다 쳐. 근데 왜 내부 문서도 그 모양인데? 파싱하면 전부 깨지고 엉망이 된다. 성능이 나올 수가 없다.

그리고 그 빌어먹을 규정은 버전관리 안하고 공문으로 그때그때 대충 던진다. 그래놓고 우리보고 정합성 맞춰달라 그런다. 니들이 바꿔야지 왜 우리가 바꿔? AI가 못 알아 쳐먹을 정도면 사람도 당연히 힘들지 않을까 하고 생각하는, 그런 상식을 기대하면 안 되나?

먼저 해야 할 것. 그건 내부 시스템의 변화

점수 따지지 말라 그러면 뭘 따져야 하나, 답이 나왔다.

내부 시스템이다.

LLM 이 답변을 잘 하려면 참조할 문서가 잘 정리되어 있어야 한다. 그걸 생산하고 축적하는 체계부터 바꿔야 한다. 요즘 제조 AI 운운하는데 전부 개소리다. 그 어느 분야보다 데이터 축적이 체계적으로 잘 되어 있는 기상 시스템도 AI 도입하기 죽어라 힘들다. 물론 기상학 자체가 졸라게 복잡한 분야라는 게 제일 크긴 하다. 하지만 데이터 수집도 안 되는 마당에 AI 도입 운운하는 것 부터가 어이없다. 어림도 없다. 데이터부터 모으는 게 선결이다.

그럼 어떤 데이터 모아야 해요? 라는 질문이 나오는 시점에서 AI사업이 불가능한 것이다. 그걸 현업이 모르면 누가 알아? 누누히 말했지만, AI란 건 사람이 할 수 있는 걸 AI로 자동화하는 것이다. 그럼 사람이 어떤 데이터를 보고 판단하는지부터 정리해야 하지 않을까? 물론 그렇게 데이터를 모아도 안 되는 경우 허다하다. 하지만 그거조차 없으면 시작도 못한다. 시작을 할 최소한의 단서조차 없는데 뭘 어쩌란 건가.

명탐정 코난도 김전일도, 그 업계의 원조인 셜록 홈즈가 와도 단서 없이 범인 못 찾는다. 걔들은 용의자 차림세만 봐도 정보가 줄줄이 나올지는 몰라도 일단 그 용의자 정도는 데려오든 현장을 보든 해야 단서가 나오는 거다. 그리고 AI 전문가에게 그 단서의 가장 기본이란 건 적어도 숫자로 정리된 테이블 데이터나 시계열 그래프 같은 것들이다. AI전문가가 공장 기계 보면 뭘 알수나 있겠나.

LLM 학습에 매우 큰 역할을 하고 있는 사이트가 있다. 바로 위키피디아다. 거기에는 매우 체계적으로 정리된 정보들이 어마어마하게 많다. 정제된 텍스트들이고 서식도 깔끔해서 매우 양질의 데이터다. 내용적으로도 훌륭하다. 그런데 그건 하나의 조직이 만들어낸 데이터가 아니다. 무수히 많은 사용자들의 집단지성으로 만들어진다.

그런데 하나의 기업이 그런 식으로 내부 자료를 정리하는 걸 왜 못하는데? 그 정도만 정리해도 RAG 기반 챗봇이 상당히 잘 구축될 수 있다.

그러니 ㅅㅂ 더도말고 덜도말고 RAG 챗봇부터나 도입하고, 거기에 들어갈 데이터를 어떻게 구조화하고 체계화 할지 정해서, 그거에 맞춰 내부의 문서 생산 방식부터 전부 갈아엎어라. 그걸 하고 나서야 그 다음에 뭘 더 해볼까 말까 고민해 볼 수라도 있다.

그리고.

그리고 AI 기업들의 변화

국내에서 에이전트? ㅈ까라 그래. 지극히 노멀한 RAG 기반 AI 챗봇 솔루션조차 없는데 그게 돼?

그리고 인식의 변화

첫째, SI는 현장에서 하는 거다, 부터 갖다 버려라. 그건 이미 밖에서 수도 없이 100% 돌아가는 게 검증된 기술이나 그런거다. 끊임없는 시행착오와 새로운 기술 애셋의 실험이 필요한 AI 사업은 그딴 식으론 못 한다.

둘째, 내부 데이터는 외부 유출 금지니까 들어와서 개발하라? 그런 마음가짐으로 AI 한다면 그냥 사업 접어라. 아니면 자체 AI 부서 만들어 셀프로 기술개발 하며 어마어마한 돈 직접 투자할 생각을 하든지. AI는 절대로 그렇게 기술 개발 안 된다. 왜냐하면 데이터가 기술력의 핵심인데 데이터 못 가지고 나가, 하는 순간 기술이 축적되지 않기 때문이다.

고객사들은 AI를 할 전문역량이 없고 AI 시행사는 데이터가 없는 게 한국 AI의 현실이다. 하다못해 협업해서 합성데이터라도 만드는 사업을 해서 데이터를 확보하고 공유할 방법을 찾아야 하는데 안 한다. 어느 쪽이든, AI 기술에 대한 투자는 고객사가 전적으로 하거나, 시행사를 쪼아서 억지로라도 해야 한다. 결국 둘 다 죽는 길이다.

기술이란 건 하나를 개발해도 100곳에 쓰일 수 있기에 가치가 있는 것이다. 1억 들여 100만원 가치를 하는 기술도 100개의 공장에 적용되면 1억원 회수하는 것이다. 그런데 현실은? 한 3000만원 어치 기반 기술만 공유하고 매 공장마다 새로 7000만원 들여 새로 하는 꼴이다. 될 리가 없다.

사실 고객사 입장에선 당연히 그럴 만 하다. 그렇다면 시행사에서라도 나서서 자체 기술력 확보해야한다. 하지만 현실은 사람만 갈아넣어 땜빵하는 중이다. 당연히 해외의 더 좋은 솔루션이 나와 단가가 안 맞으면 싸움이 될 리가 없다.

그런 점에서.

셋째, 과도한 커스터마이징 따위 바라지 마라. 특히 LLM 기술은 XX 특화 모델? 그딴 거 전부 사치다. 기본적인 RAG 챗봇 솔루션조차 없어서 분명 각 현장마다 주먹구구식으로 구현한 챗봇이나마 들어가 있으면 다행일거다. 그런데 특화 서비스를 요구한다. 그게 얼마나 고객사와 시행사 양쪽의 전략적인 실패인지는 명확하다.

예를 들어, 워드 프로세서를 자사에 맞춰 커스터마이징 해달라고 하는 업체는 없다. 왜냐하면 누구나 MS 워드 또는 한컴을 사서 쓰기 때문이다. 과연 그건 개발비가 저렴했을까? 수십억 규모에서 퉁쳐졌을까? 어림도 없지. 그건 전국, 또는 전세계에서 어마어마하게 많은 개인과 기업들이 사서 쓰고 있기 때문에 단가가 맞는 것이다. 그리고 그 모든 사용자들은, 자신의 편의에 따라 거기에 맞춰 새로 개발해달라는 소리 따윈 안 한다. 그것의 기능을 직접 익히고 자신의 업무 스타일을 거기에 맞추지.

AI챗봇은 그럼 개발비가 쌀까? 기본 수십억 든다. 매우 기본적인 기능들만으로도. 지금 누구나 몇 만 원으로 챗GPT의 양질의 챗봇을 이용하니 이게 우습게 보이나본데, 그거 전세계 수 억 인구가 사용해서 그 단가 나오는거다. 그거 개발하는데 23년부터 계속 업데이트 하고 기능 개선 해왔다. 그래서 그 정도다. 그런데 중간에 채팅치다 연결 끊겨서 바보되는 경우 수시로 본다. 답변 취소된 줄 알고 리플레시 누르면 답변이 2개가 나오질 않나, 가끔 세션이 뭐가 어떻게 꼬였는지 물어본 거랑 상관없는 답변을 하지 않나, 거기에 대체 메모리 관리를 어떻게 하길래 램 8기가 짜리 노트북에선 버벅이거나 터지는 경우 허다하다.

그거 개발하는 데 들인 개발자의 규모가, 소위 AI 사업이랍시고 수십명 불러다 하는 것보다 적을 거 같나? 심지어 기간도 쥐꼬리만큼 할당하더만.

그리고 가장 중요한 건.

써봐라.

가장 좋은 AI 서비스 개발은 현장에서 실무자가 써보고 좋았던 우수사례들을 모아 거기에 맞춰 만드는 것이다. 앞서 말한, RAG 챗봇부터 도입하라는 것도 같은 맥락이다. 써보려고 해도 있어야 써보니까.

그리고 윗사람도 써봐야 이게 뭐가 좋고 뭐가 나쁜지를 알지. 과도한 환상이든 과도한 비관이든, 뇌피셜만 가지고 이러니 저러니 해봐야 전부 쓸데없다.

자려고 누웠다가 괜히 기사 글 하나 보고 욱해서 밤새서 적어본다. 씁...

'단상 > 기술' 카테고리의 다른 글

악마는 디테일에 있다. 키워드 기반의 기술항목 분석의 문제점 (1)	2025.12.28
퍼스트 무버의 함정, 그리고 때론, 누군가의 변명 (1)	2025.11.09
AI 조현병, 인간의 취약성... (0)	2025.10.30
AI가 망하는 이유 (0)	2025.10.27
우리나라 AI 산업의 현실 (1)	2025.10.23

제라키엘의 덕질 world

성공률 중심의 AI 사업의 실패

1. 업무는 문제풀이가 아니다.

2. 업무는 혼자하는 게 아니다.

3. 악마는 디테일에 있다.

기업 AI 도입의 구조적 실패 원인

먼저 해야 할 것. 그건 내부 시스템의 변화

그리고 AI 기업들의 변화

그리고 인식의 변화

'단상 > 기술' 카테고리의 다른 글

티스토리툴바

성공률 중심의 AI 사업의 실패

1. 업무는 문제풀이가 아니다.

2. 업무는 혼자하는 게 아니다.

3. 악마는 디테일에 있다.

기업 AI 도입의 구조적 실패 원인

먼저 해야 할 것. 그건 내부 시스템의 변화

그리고 AI 기업들의 변화

그리고 인식의 변화

'단상 > 기술' 카테고리의 다른 글

'단상/기술' Related Articles

티스토리툴바