ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • LLM confidence는 왜 계속 돌아오는가
    🧪 디마지 실험실 (LAB) 2026. 2. 10. 13:25

    오늘 한 영상을 보다가 멈췄다.

    스탠퍼드 박사과정 학생이 의료 AI 평가 문제를 얘기하는 영상이었는데, 새로운 내용은 아니었다. 오히려 2-3년 전부터 계속 봐온 얘기였다. 그런데 이 사람도 똑같은 지점에서 멈춰 있더라.

    "좋은 모델이 문제가 아니다. 좋은 평가가 문제다."

    1️⃣ 요즘 이 얘기가 왜 다시 보이냐면

    영상에서 계속 나오는 건 이거다. 논문엔 95%, 심지어 100% 정확도가 나온다. 근데 병원에선 배포조차 안 된다. 평가 방식 자체가 잘못됐다고. 잘못된 데이터, 잘못된 질문 형식, 평균만 보고 정작 중요한 실패는 못 본다고.

    이 패턴이 계속 반복된다. "모델 성능은 좋은데 신뢰는 안 간다"는 얘기.

    의료 AI뿐 아니라 에이전트, RAG, 의사결정 시스템에서도 똑같은 얘기가 나온다.

    Confidence 문제. Uncertainty 문제.

    해결됐다가 다시 나타나는 게 아니라, 애초에 해결된 적이 없는 것 같다.

    2️⃣ 내가 이걸 그냥 넘기기 힘든 이유

    영상에서 이런 말이 나온다:

    "이 모델들은 때로는 정답이 없다는 것을 받아들이는 법을 배우지 못했습니다."

     

    LLM은 점점 더 유창하게 답한다. 자연스러운 문장, 그럴듯한 논리, 정확한 전문용어.

    근데 이 유창함이 마치 확신처럼 느껴진다. 그리고 우리는 그걸 신뢰로 착각한다.

    의료에서 confidence는 "얼마나 자주 맞히는가"가 아니라 "언제 틀릴지 아는가"에 가까운 것 같은데, 우리는 전자만 측정한다.

    모델은 "모르겠습니다"를 말하지 않는다. 아니, 그렇게 말하도록 평가받지 않는다.

    3️⃣ 아직 안 풀린 질문 하나

    우리는 정말로 confidence를 측정하고 있는 걸까, 아니면 그저 그럴듯하게 들리는 답변의 설득력을 측정하고 있는 걸까?

    영상을 보면서 더 나은 지표를 찾고 싶다는 생각보다, 불확실성을 숨기지 않고 드러내는 방식이 필요하다는 느낌이 더 강해졌다.

    의사들이 묻는 건 "이 환자한테 이 AI 써도 될까?"인데, 우리가 답하는 건 "이 AI는 평균적으로 몇 퍼센트 맞습니다"다.


    This question keeps resurfacing, and I'm still trying to understand why.

    영상: AI in Medicine is BROKEN - Stanford PhD Exposes the 95% Accuracy Lie

    반응형
Designed by Tistory.