-
LLM confidence는 왜 계속 돌아오는가🧪 디마지 실험실 (LAB) 2026. 2. 10. 13:25
오늘 한 영상을 보다가 멈췄다.
스탠퍼드 박사과정 학생이 의료 AI 평가 문제를 얘기하는 영상이었는데, 새로운 내용은 아니었다. 오히려 2-3년 전부터 계속 봐온 얘기였다. 그런데 이 사람도 똑같은 지점에서 멈춰 있더라.
"좋은 모델이 문제가 아니다. 좋은 평가가 문제다."
1️⃣ 요즘 이 얘기가 왜 다시 보이냐면
영상에서 계속 나오는 건 이거다. 논문엔 95%, 심지어 100% 정확도가 나온다. 근데 병원에선 배포조차 안 된다. 평가 방식 자체가 잘못됐다고. 잘못된 데이터, 잘못된 질문 형식, 평균만 보고 정작 중요한 실패는 못 본다고.
이 패턴이 계속 반복된다. "모델 성능은 좋은데 신뢰는 안 간다"는 얘기.
의료 AI뿐 아니라 에이전트, RAG, 의사결정 시스템에서도 똑같은 얘기가 나온다.
Confidence 문제. Uncertainty 문제.
해결됐다가 다시 나타나는 게 아니라, 애초에 해결된 적이 없는 것 같다.
2️⃣ 내가 이걸 그냥 넘기기 힘든 이유
영상에서 이런 말이 나온다:
"이 모델들은 때로는 정답이 없다는 것을 받아들이는 법을 배우지 못했습니다."
LLM은 점점 더 유창하게 답한다. 자연스러운 문장, 그럴듯한 논리, 정확한 전문용어.
근데 이 유창함이 마치 확신처럼 느껴진다. 그리고 우리는 그걸 신뢰로 착각한다.
의료에서 confidence는 "얼마나 자주 맞히는가"가 아니라 "언제 틀릴지 아는가"에 가까운 것 같은데, 우리는 전자만 측정한다.
모델은 "모르겠습니다"를 말하지 않는다. 아니, 그렇게 말하도록 평가받지 않는다.
3️⃣ 아직 안 풀린 질문 하나
우리는 정말로 confidence를 측정하고 있는 걸까, 아니면 그저 그럴듯하게 들리는 답변의 설득력을 측정하고 있는 걸까?
영상을 보면서 더 나은 지표를 찾고 싶다는 생각보다, 불확실성을 숨기지 않고 드러내는 방식이 필요하다는 느낌이 더 강해졌다.
의사들이 묻는 건 "이 환자한테 이 AI 써도 될까?"인데, 우리가 답하는 건 "이 AI는 평균적으로 몇 퍼센트 맞습니다"다.
This question keeps resurfacing, and I'm still trying to understand why.
영상: AI in Medicine is BROKEN - Stanford PhD Exposes the 95% Accuracy Lie
반응형