🧪 디마지 실험실 (LAB)
-
LLM confidence는 왜 계속 돌아오는가🧪 디마지 실험실 (LAB) 2026. 2. 10. 13:25
오늘 한 영상을 보다가 멈췄다.스탠퍼드 박사과정 학생이 의료 AI 평가 문제를 얘기하는 영상이었는데, 새로운 내용은 아니었다. 오히려 2-3년 전부터 계속 봐온 얘기였다. 그런데 이 사람도 똑같은 지점에서 멈춰 있더라."좋은 모델이 문제가 아니다. 좋은 평가가 문제다."1️⃣ 요즘 이 얘기가 왜 다시 보이냐면영상에서 계속 나오는 건 이거다. 논문엔 95%, 심지어 100% 정확도가 나온다. 근데 병원에선 배포조차 안 된다. 평가 방식 자체가 잘못됐다고. 잘못된 데이터, 잘못된 질문 형식, 평균만 보고 정작 중요한 실패는 못 본다고.이 패턴이 계속 반복된다. "모델 성능은 좋은데 신뢰는 안 간다"는 얘기.의료 AI뿐 아니라 에이전트, RAG, 의사결정 시스템에서도 똑같은 얘기가 나온다.Confidence ..