해외 모델과 큰 격차
국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.
김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.
한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.
해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.
평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.
연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.
연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.
JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자
<저작권자 © JIBS 제주방송, 무단 전재 및 재배포 금지>
국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.
김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.
한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.
해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.
평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.
연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.
연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.
JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자
<저작권자 © JIBS 제주방송, 무단 전재 및 재배포 금지>
- ∙︎ 장동혁 "추경이 진짜 포퓰리즘.. 선거 끝나면 온갖 세금 만들어 몇 배 거둬갈 것"
- ∙︎ 김기현 "정원오 이름 석 자, 안희'정'·박'원'순'·'오'거돈 따왔다는 얘기도"
- ∙︎ 기름값 충격에 소비자물가 2.2%↑… 상승 압력 본격화
- ∙︎ 제주 한림읍서 차량 3대 부딪쳐...2명 병원 이송
- ∙︎ “종량제 봉투, 부족 없다면서 ‘제한’ 먼저 꺼냈다”… 김성환 발언, 하루 사이 정리
- ∙︎ 이준석 "약자 파는 PC주의 반드시 근절.. 선택적 반응 여성단체가 여성 위협"
- ∙︎ "증조부는 3기, 아들은 현역"...제주서 '국내 1호' 4대(代) 해병 가문 탄생