티스토리 뷰

반응형

인공지능의 한국 수능 도전: '지피티'와 '클로드'의 성적은?

인공지능의 발전 속도가 놀라운 요즘, AI가 한국 수능시험을 푼다면 어떤 결과가 나올까? 〈시사IN〉은 AI의 인지 추론 능력을 검증하기 위해 GPT-4o와 클로드 3.5 소네트 모델을 대상으로 수능시험을 치르게 했다. 두 모델은 각각 오픈 AI와 앤스로픽 사에서 개발한 최신 버전으로, 챗봇 아레나에서 최고 성능을 자랑하는 인공지능이다. 이번 실험은 2023년 수능 기출문제를 기준으로 진행되었다.

인공지능의 언어 능력: 클로드의 압도적 성적

클로드 3.5 소네트는 국어, 영어, 일본어 영역에서 우수한 성적을 보이며 언어 능력에서 두각을 나타냈다. 국어 82점, 영어 87점으로 상위 9%와 13%에 해당하는 성적을 기록했다. 이는 클로드가 다양한 언어 데이터를 학습한 결과로 보인다. 그러나 영어 듣기 평가는 음성 인식 기능이 없어 대본을 읽고 답을 하였기에 실제 수능과는 다른 조건에서 진행되었다는 점을 유의해야 한다.

반면 GPT-4o는 언어 영역에서 상대적으로 낮은 성적을 기록했다. 국어 59점, 영어 79점으로 클로드보다 뒤처졌다. 이는 GPT-4o가 2023년 10월까지의 데이터를 학습하여 수능 기출문제를 학습하지 않은 상태였기 때문일 가능성이 크다. 하지만 두 모델 모두 한국어 능력에서 영어 능력보다 낮은 성적을 보인 것은 공통적인 특징이었다.

수리와 과학 영역에서 드러난 AI의 한계

수리 영역에서는 GPT-4o가 클로드보다 우수한 성적을 보였다. GPT-4o는 수학에서 66점을 기록한 반면, 클로드는 34점에 그쳤다. 이는 GPT-4o가 수학적 추론 능력에서 더 나은 성과를 보였다는 것을 의미한다. 그러나 두 모델 모두 수험생 평균을 밑도는 성적이었다. 특히 클로드는 수학 외에도 생활과 윤리, 사회와 문화, 생명과학 I, 지구과학 I에서 평균 이하의 성적을 기록하며 약점을 드러냈다.

이는 AI가 수리와 과학 추론에서 인간을 완전히 대체하기에는 아직 부족함을 보여준다. 비록 AI가 방대한 양의 데이터를 학습하고 있지만, 복잡한 문제해결 능력과 다양한 맥락을 이해하는 데에는 한계가 있는 것으로 보인다.

인공지능의 대학 입시 가능성

만약 두 인공지능 모델이 실제 수험생이었다면, 클로드는 경기권 하위 대학이나 지방 중위권 대학에 합격할 가능성이 있었다. 반면 GPT-4o는 재수를 권유받을 정도로 낮은 성적을 기록했다. 이는 AI의 현재 인지능력이 고등학생 수준을 완전히 뛰어넘지 못하고 있다는 것을 보여준다.

클로드의 높은 언어 성적에도 불구하고 재수를 권유받는 상황은 인공지능의 한계를 여실히 보여준다. 이는 AI가 특정 영역에서는 뛰어난 성과를 보일 수 있지만, 종합적인 사고력과 문제해결 능력에서는 인간을 대체하기에는 아직 멀었다는 것을 의미한다.

결론: 인공지능의 한계와 가능성

이번 실험을 통해 인공지능이 한국 수능에서 어떤 성과를 보일지에 대한 흥미로운 결과를 얻을 수 있었다. 언어 영역에서는 클로드가 우수한 성적을 보였지만, 수리와 과학 영역에서는 여전히 한계를 드러냈다. 이는 AI가 인간의 모든 영역을 대체하기에는 아직 멀었다는 것을 보여준다.

향후 AI 기술의 발전에 따라 인공지능의 성적은 더욱 향상될 가능성이 크다. 하지만 인공지능이 수능 1등급을 차지하는 날이 오더라도, 이는 우리 사회가 수능 만능주의에서 벗어나야 할 필요성을 보여주는 중요한 지표가 될 것이다. AI의 발전은 인간의 가능성을 확장하는 도구로 사용될 때 더욱 의미가 있다.

반응형