해외 모델과 큰 격차
국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.
김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.
한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.
해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.
평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.
연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.
연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.
JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자
<저작권자 © JIBS 제주방송, 무단 전재 및 재배포 금지>
국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.
김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.
한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.
해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.
평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.
연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.
연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.
JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자
<저작권자 © JIBS 제주방송, 무단 전재 및 재배포 금지>
- ∙︎ 30년 만에 가장 많은 발걸음… 제주 마라톤에 1만 4천 명 모였다
- ∙︎ 제주동부경찰서, 탐라문화광장 기초질서 지키기 합동 캠페인 전개
- ∙︎ 수급자 절반 “기초연금 40만 원은 돼야”…34만 원 적정 응답 20%뿐
- ∙︎ “또 소송하면 국민이 해체할 것”… 한동훈, 선관위 감사 허용법 꺼냈다
- ∙︎ 현충일 끝나자 시장으로… 이재명 대통령, 상인들 만나 “장사 어떠세요”
- ∙︎ "참정권 강탈"...투표용지 부족 사태에 변협.전국 총학생회 선관위 직격
- ∙︎ 송언석 사퇴 하루 만에 9일 선거 강행... "밀실 야합", "한동훈 막으려 친윤이 판 짠 것" 내부 반발