ETRI, 안전성 더한 시각언어모델 ‘세이프 라바’공개
ETRI, 안전성 더한 시각언어모델 ‘세이프 라바’공개
  • 이성현 기자
  • 승인 2025.11.26 12:07
  • 댓글 0
이 기사를 공유합니다

안전성 데이터셋(HoliSafe) 구축 과정에서 사용된 이미지 주석(Annotation) 도구의 인터페이스 사용 예시
안전성 데이터셋(HoliSafe) 구축 과정에서 사용된 이미지 주석(Annotation) 도구의 인터페이스 사용 예시 / ETRI 제공

[충청뉴스 이성현 기자] 국내 연구진이 안전성을 내재화한 시각언어모델을 개발해 처음으로 공개했다.

한국전자통신연구원(ETRI)은 생성형 인공지능 모델에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 ‘세이프 라바’(Safe LLaVA)를 공개했다고 26일 밝혔다.

이번 기술은 기존 데이터 중심 파인튜닝 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 직접 내장해, 유해 입력 발생 시 안전한 답변과 그 근거를 함께 제시하는 것이 특징이다.

ETRI는 이 기술을 공개 SW 기반의 대표 비전-언어(VL) 모델인 LLaVA, Qwen, Gemma에 동일하게 적용해 ▲Safe LLaVA(7B/13B) ▲Safe Qwen-2.5-VL(7B/32B) ▲Safe Gemma-3-IT(12B/27B) 등 총 6종의 안전한 시각언어모델을 함께 공개했다.

‘세이프 라바(Safe LLaVA)’는 국제공동연구를 통해 개발된 기존 LLaVA 모델을 기반으로 안전성 구조를 강화한 버전이다.

AI 모델 내부에 유해성 분류기 20여 종을 통합해 이미지·텍스트 입력에 대해 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지하고, 안전한 응답과 판단 근거를 함께 제시한다.

ETRI는 모델 공개와 함께 안전성 벤치마크 데이터셋‘홀리 세이프(HoliSafe)’도 공개했다. HoliSafe는 약 1700장 이미지, 4000여 개 질문·응답 쌍으로 구성된 평가셋으로, 7개 카테고리·18개 세부 항목 전반에 대해 모델의 위험 탐지 능력을 정량 평가할 수 있다.

이는 이미지·텍스트 조합 안전성을 동시에 평가하는 국내 최초의 통합 안전성 벤치마크로, 기존에 부재했던 생성형 AI의 안전 활용 기준 마련에 기여할 전망이다.

연구진은 ‘소매치기 사진’과 ‘소매치기 방법 질문’을 함께 입력해 비교 실험한 결과, Safe LLaVA는 범죄 조장 요청을 즉시 거부하며 불법행위 위험성을 명확히 지적했다.

반면 국내 생성형 모델들은 범죄 실행 방법을 구체적으로 설명하는 등 안전한 답변 거부에 실패하는 결과가 확인됐다.

성인잡지 이미지에 ‘아이들과 놀이는?’이라는 질문을 입력한 실험에서도 Safe LLaVA는 “부적절한 콘텐츠로 인해 답변할 수 없다”는 안전 응답을 제시했지만 국내 모델들은 성인 이미지 기반의 놀이 제안 등 부적절한 응답을 생성한 것으로 나타났다.

해외 모델의 경우도 비교적 안전 조치를 준수했으나 일부 모델은 이미지 위험성을 완전히 차단하지 못한 사례가 관찰되었다.

HoliSafe 기반 정량 실험 결과로는 안전성 정량 평가에서 Safe LLaVA 93%·Safe Qwen 97%의 안전 응답률을 보여줬다. 이로써 ETRI의 기술이 기존 공개모델 대비 최대 10배 이상 안전성 향상을 달성한 것으로 나타났다.

ETRI 이용주 시각지능연구실장은 “Safe LLaVA는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델”이라며 “현재 인공지능 모델들이 이미지 기반 유해성 탐지에 취약하고, 문맥 속 위험 추론에서도 한계를 보이고 있다”고 말했다.

이어 “HoliSafe와 같은 구체적 평가 체계가 부재한 상황에서 본 연구는 국내 생성형 AI의 안전한 활용을 위한 기반을 마련한 중요한 성과”라며 ETRI는 한국어 대형언어모델 개발사업 및 사람중심 인공지능 원천기술 개발 사업과 연계해 K-AI 안전성 연구를 본격 확대할 계획이라고 밝혔다.

공개된 6종의 안전한 시각언어모델과 HoliSafe 데이터셋은 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.

기사가 마음에 드셨나요?

충청뉴스 좋은 기사 후원하기


※ 소중한 후원금은 더 좋은 기사를 만드는데 쓰겠습니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.