
최근 공개된 국내 AI 모델들의 수능 수학 문제 풀이 평가에서 외국산 대형 AI 모델에 비해 크게 낮은 점수를 받으면서 업계에 혼란이 일어났습니다. 해당 연구는 서강대학교 김종락 교수팀이 주도했으며 외산 모델들이 76~92%의 높은 정답률을 기록한 반면, 국산 모델들은 대부분 20%대 이하의 저조한 성적을 보였습니다. 언론에서는 이를 '낙제점'이나 '국산 AI의 굴욕'이라고 자극적으로 보도하였습니다.
그러나 AI 업계 관계자들은 이번 평가가 기본적인 공정성을 결여했다고 강하게 반발하고 있습니다. 핵심 문제는 비교에 사용된 AI 모델들의 파라미터 수(학습 가능한 매개변수)가 크게 차이 난다는 점입니다. 외산 모델은 1조 개 이상의 파라미터를 가진 초대형 모델인 반면, 국내 AI 모델들은 대부분 1000억 개 미만, 심지어 8억 개 수준의 경량화 모델도 존재합니다. 이는 마치 조깅을 하는 사람과 올림픽 선수의 기록을 비교하는 것과 같아 실질적인 성능 차이를 단순 수치로 평가하기 어렵다는 문제로 이어집니다.
또한 평가에 앞서 각 AI 모델의 최적화 과정을 고려하지 않아 모델 특성에 맞는 ‘트리거 프롬프트’나 내장 기능 활용 없이 테스트가 진행됐습니다. 이는 각 모델이 설계된 환경과 다르게 사용되었으며 모델들의 잠재능력을 충분히 발휘하지 못하는 결과를 초래했습니다. 일반적으로 글로벌 AI 평가에서는 평가 전에 개발사와 소통하여 가장 효율적인 명령어로 성능을 측정하도록 조율하지만 이번엔 이러한 절차가 생략되었습니다.
김종락 교수팀은 이번 평가가 단순한 비판이 아니라 국내 AI 모델들의 현 수준을 진단하고 개선 방향을 모색하기 위한 목적으로 진행되었다고 밝혔습니다. 또 평가를 위해 일부 문제에서 파이썬 코드를 활용해 정답률을 높이는 시도를 하였으며, 자체 개발한 데이터셋을 바탕으로 국제적 표준 및 AI 도메인 특화 모델 발전에 기여하는 것이 목표라고 강조했습니다.
이번 사안은 기술 평가의 투명성과 공정성에 관한 중요한 시사점을 제공합니다. 기술력 평가에 있어서 체급(모델 규모와 특성)을 무시한 비교는 기업의 신뢰도를 해칠 수 있으며 시장 진입 자유와 공정경쟁에 영향을 미칠 우려가 있습니다. 이에 정부와 관련 기관은 AI 성능 평가 기준 및 절차의 표준화를 추진해야 하며, 외부 기관의 임의적 평가가 국산 기술을 부당하게 폄하하지 않도록 법적 규제 및 관리 방안을 강구할 필요가 있습니다. 이를 통해 국내 AI 산업 발전과 공정한 경쟁 환경 조성 간 균형 있는 접근이 가능할 것입니다.