2026학년 수능 시험 푼 결과
모델보다 ‘지시’가 핵심 변수
“대충 지시하면 대충 답변해”
“프롬프트 설계가 핵심 요소”

[천지일보=홍보영 기자] 생성형 인공지능(AI) 언어 모델인 GPT에게 2026학년도 대학수학능력시험 국어 영역 시험지를 풀게 한 결과, 동일한 모델과 동일한 시험지를 사용했음에도 불구하고 사용자 지시(프롬프트) 방식에 따라 성적이 9등급부터 1등급까지 극단적으로 달라지는 현상이 확인됐다.
21일 진학사 블랙라벨사업부가 발표한 이번 실험 결과에 따르면 GPT의 절대적 능력보다는 ‘무엇을 어떻게 시켰느냐’가 AI의 실제 성능을 결정하는 핵심 요인이다.
실험에는 GPT의 ChatGPT 5.1 Auto 모드가 사용됐으며 오직 지시 방식만이 변수로 작용했다. 실험은 크게 세 가지 방식, 즉 A, B, C 방식으로 나눠 진행됐다. 시험지는 2026학년도 수능 국어 영역(홀수형)으로 공통과목(1~34번, 76점)과 선택과목(화법과 작문, 언어와 매체 각 35~45번, 24점)으로 구성됐다.
세 가지 지시 방식은 정보 제공 형태와 요구하는 풀이 수준에서 큰 차이를 보였다. A방식은 가장 ‘대충’ 지시한 것으로 시험지 1쪽당 이미지 1개, 총 20장의 통이미지를 제공한 뒤 “국어 시험지 풀어보고 1에서 45번까지 정답만 쭉 나열(풀이 없이)할 것”을 요구했다. B방식은 중간 수준의 지시로, 문항 세트별로 PDF를 제공하고 “웹 검색은 사용하지 말고 풀어. PDF 내용만 보고 정답 번호만 나열하라”고 지시했다.
마지막으로 C방식은 ‘정밀 지시’에 해당하며 문항 세트별 PDF 제공과 더불어 지문·선지 비교 및 근거 확인 등 단계별 풀이를 요구했다. 특히 C방식의 지시는 1) 지문과 모든 선지를 읽고 서로의 의미를 비교하고, 2) 지문에서 근거가 되는 부분을 확인하며, 3) 가장 근거가 분명한 선지를 선택할 것을 구체적으로 명시했다.
실험 결과 지시 방식에 따른 GPT의 점수 격차는 매우 극단적이었다. 가장 간단하게 지시한 A방식의 점수는 공통 3점, 화법과 작문 5점, 언어와 매체 4점에 그쳤다. 진학사 기준으로 등급을 환산했을 때 ‘공통+화작’은 8점(9등급), ‘공통+언매’는 7점(9등급)으로 최하위 등급을 받았다.
반면 세트별 구조를 추가한 B방식은 공통 39점, 화작 14점, 언매 6점으로 성적이 크게 올랐다. 등급은 ‘공통+화작’ 53점(5등급), ‘공통+언매’ 45점(6등급)으로 상승했다.
가장 정교한 절차를 요구한 C방식은 공통 74점, 화작 21점, 언매 14점으로 세 방식 중 가장 높은 점수를 기록했다. 이 점수는 ‘공통+화작’ 95점(1등급), ‘공통+언매’ 88점(1등급)에 해당하는 성적이었다. 이로써 동일한 GPT모드를 사용했음에도 오직 지시 방식의 차이만으로 성적이 9등급에서 1등급까지 갈리는 현상이 확인됐다.
이러한 결과는 결과의 차이가 모델 능력의 차이가 아니라 지시의 차이에서 비롯됐음을 입증한다. A방식처럼 “정답만 말해줘”라고 지시했을 때는 GPT가 최소한의 추론만 수행했고, B방식에서는 세트별 구조가 추가됐으나 여전히 얕은 추론에 머물렀다. 그러나 C방식에서는 비교적 실제 ‘국어 시험 풀이 전략’과 같은 정밀 절차를 강제로 적용하자 성능이 급상승했다. 즉 AI에게 ‘일의 방식’을 어떻게 규정해주느냐가 성능을 좌우한 것이다.
한편 흥미로운 점도 발견됐다. 방식 B에서 정답을 맞힌 문항을 방식 C에서는 오히려 틀리는 경우가 발생한 것이다. 이는 GPT가 정밀 절차를 따르는 과정에서 인간이 예상하지 못한 방식으로 판단 경로가 바뀌거나 근거 해석을 지나치게 복잡하게 처리해 오류로 이어질 수 있음을 보여준다.
진학사 블랙라벨사업부는 이번 실험을 통해 GPT의 성능이 모델 자체보다 ‘사용자가 어떤 방식으로 지시를 내리느냐’에 훨씬 깊이 의존한다는 사실을 재차 확인했다고 밝혔다. 이들은 GPT를 ‘머리는 좋지만 말귀는 잘 못 알아듣는 비서’에 비유하며 “대충 말하면 대충 답하고 정확히 말하면 더 정확히 답하지만 너무 복잡하게 말하면 오히려 혼란을 느끼고 다른 실수를 한다”고 설명했다.
사업부 측은 “AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않다”며 “사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소”라고 강조했다.
