KISTI, AI ‘추론과정’ 평가 新기술 개발

[충청뉴스 이성현 기자] 한국과학기술정보연구원(KISTI)은 에이전트응용연구센터 양혜영 박사 연구팀이 인공지능(AI)의 추론 과정을 평가할 수 있는 새로운 평가기술인 ‘TRACE’를 개발했다고 12일 밝혔다.

이번 연구성과는 세계 최고 권위의 인공지능·머신러닝 학회인 국제 머신러닝학회(ICML) 2026에 채택됐다.

ICML은 인공지능과 머신러닝 분야를 대표하는 세계적 학회 중 하나로, 매년 전 세계 연구기관과 빅테크 기업의 최신 AI 연구성과가 발표되는 대표적인 학술행사로 평가받고 있다.

최근 대규모 언어모델(LLM)은 복잡한 문제를 단계적으로 해결하는 연쇄적 사고(Chain-of-Thought) 방식을 통해 높은 성능을 보이고 있다.

그러나 기존 평가는 최종 답의 정오 여부에 집중해 AI가 어떤 과정을 거쳐 결론에 도달했는지 파악하기 어렵고, 정답지가 없는 환경에서는 평가가 어렵다는 한계가 있다.

연구팀은 이러한 한계를 극복하기 위해 논증이론 분야의 대표적 모델인 툴민(Toulmin) 논증모형과 인지심리학자 존 플라벨(John Flavell)의 메타인지 이론을 결합해 AI의 추론 구조와 자기점검 과정을 동시에 분석하는 평가기술을 개발했다.

TRACE는 AI가 생성한 추론 문장을 주장(Claim), 근거(Evidence), 논거(Warrant), 보강근거(Backing), 평가(Evaluation), 한정(Qualifier), 반박(Rebuttal), 모니터링(Monitoring) 등 8개 요소로 분해한 뒤, 각 요소의 타당성과 문장 간 논리적 연결성을 분석한다.

연구팀은 약 10만 개의 추론 문장을 활용해 TRACE-DeBERTa 모델을 학습시켰으며, 7개 주요 언어모델과 2만 6천여 개의 추론 사례를 분석했다. 그 결과 TRACE 점수와 실제 벤치마크 정답률 사이에서 높은 상관관계(Pearson r=0.741)를 확인했다.

TRACE는 평가지표로서의 가능성뿐만 아니라 LLM 강화학습의 효과적인 보상 신호로서의 가능성도 보여주었다. 정답 여부만을 보상 신호로 활용하던 기존 검증가능보상 강화학습(RLVR) 방식에 TRACE를 추가 적용한 결과 LLM의 추론 성능을 더욱 끌어올릴 수 있음을 확인했다.

KISTI 양혜영 박사는 “TRACE는 AI가 어떤 단계에서 논리적으로 추론했고, 어떤 단계에서 불확실성이나 자기모순이 발생했는지를 설명할 수 있다”며 “기존 블랙박스형 및 정답지에 의존하는 AI 평가 방식의 한계를 보완할 수 있다”고 발혔다.

한편 최근 AI 연구는 단순한 성능 경쟁을 넘어 AI가 어떤 근거와 논리를 통해 결론에 도달하는지를 평가하고 이해하는 방향으로 발전하고 있다.

이번 ICML 2026 채택은 TRACE가 AI 추론 평가 분야에서 학술적·실용적 가치를 인정받았음을 의미한다.

이성현 기자 다른기사 보기

기사가 마음에 드셨나요?

충청뉴스 좋은 기사 후원하기