로버트 주니어 카루소의 실험은 단순한 AI 대화로부터 비롯됐습니다. 그는 챗GPT와 체스의 역사에 대해 대화하던 도중, 챗GPT로부터 아타리 2600과 게임을 하게 해 달라는 요청을 받았습니다.
최신 AI 모델이 거의 50년 된 게임기에서 돌아가는 체스 게임을 이길 수 있을까? 그는 그게 재미있는 실험이라고 생각했습니다. 아타리 2600은 1977년에 출시된 거치형 게임기로, 체스 프로그램은 단지 한두 수 앞밖에 내다보지 못하는 수준의 엔진입니다. 그야말로 ‘초보자용’ 체스죠. 체스 엔진이 구동되는 게임기의 두뇌인 중앙처리장치(CPU)는 최초의 PC(개인용컴퓨터)인 애플 II와 유사한 성능을 가졌습니다. 구식 스마트폰과 단순 비교해도 1억배~1조배 수준의 연산능력 차이로, 비교하는 게 무의미할 정도입니다.
하지만 대전의 결과는 충격적이었습니다. 클라우드에서 고성능 그래픽처리장치(GPU)로 구동되는 챗GPT는 기물의 위치를 혼동하고, 룩과 비숍을 제대로 구분하지 못하는 등, 초등학생 체스 클럽에서조차 통과 못할 실수를 반복했습니다. 챗GPT는 에뮬레이터에서 구동되는 아타리 2600 내 체스판의 아이콘이 너무 추상적이라 인식이 어렵다는 이유를 내세웠지만, 아이콘을 바꿔도, 상황은 나아지지 않았죠. 실험을 진행한 로버트 주니어 칼루소는 90분동안 챗GPT가 엉망인 수를 두려는 것을 말리고, 기물에 대한 인식을 도와가며 아타리 2600에 대한 도전을 도왔지만, 결국 챗GPT가 졌다는 것을 인정했다고 밝혔습니다.
그렇다면 왜 이런 일이 일어난 걸까요?
챗GPT, 즉 대형언어모델(LLM)이 잘하는 것은 말 그대로 ‘언어’입니다. 문장을 이해하고, 논리를 구성하고, 요약하고 번역하는 데는 탁월하죠. 하지만 체스는 언어가 아닌, 상태 추적과 수 계산의 영역입니다. 현재 기물의 위치, 상대의 다음 수, 나의 다음 전략을 머릿속에서 연산하고 반영해야 하죠. 인간은 이를 ‘직관’으로 처리하기도 하지만, 체스 엔진은 철저히 계산으로 접근합니다.
이 실험이 흥미로운 이유는 바로 여기 있습니다. 거대언어모델로 만들어진 챗GPT는 놀라운 텍스트 생성 능력을 갖고 있지만, 그 기반은 어디까지나 ‘텍스트 예측’이거든요. 1+1을 질문해도 챗GPT는 계산을 하지 않습니다. 단지 1+1이라는 텍스트 앞에 2가 놓일 가능성이 높기 때문에 그렇게 대답하는 거죠. 즉 이번 실험은 거대언어모델이 계산 영역에 얼마나 취약한지 알려주는 사례에 해당합니다.
https://www.ilovepc.co.kr/news/articleView.html?idxno=55039
- 선택됨
