스타트업 하나가 문을 닫았다. 이유는 간단했다. 아무것도 만들어내지 못했기 때문이다. 특이한 점은 이 회사의 직원이 모두 인공지능이었다는 것이다. 사람은 단 한 명도 없었다.
카네기 멜론 대학교의 연구자들은 “TheAgentCompany”라는 회사를 만들었다. 이 회사는 OpenAI, Meta, Google, Anthropic의 AI 모델들이 소프트웨어 엔지니어, 재무 분석가, 프로젝트 매니저로 일하는 곳이었다. 심지어 CTO와 HR 부서까지 있었다. 이 인공지능 직원들은 인터넷에서 정보를 찾고, 사내 규정집을 참고하며, 내부 웹사이트와 슬랙 같은 채팅 프로그램을 사용할 수 있었다. 코드도 작성하고, 스프레드시트로 정보를 정리하고, ‘동료’들과 소통까지 했다.
그래서 결과는 어땠을까? 실패했다. 거의 코미디 수준으로. 인공지능 직원들은 회의하는 데 탁월했고 엄청나게 많은 회의를 했다. 내부 갈등도 많았다. 그리고 결국 아무 제품도 만들어내지 못했다. 우리가 맹목적으로 신뢰하는 인공지능이 회사를, 그것도 스타트업을 운영하면 어떻게 될까? 그 대답은 출시 제품 없이 실패하는 것이었다. 마치 스타트업에 관한 코미디 쇼의 패러디 같았다.
연구진의 논문을 살펴보면, 이들은 인공지능 에이전트들이 실제 작업 환경에서 업무를 자율적으로 수행할 수 있는지 객관적으로 평가하기 위해 이 실험을 진행했다. 그들이 개발한 벤치마크는 웹 브라우징, 코딩, 프로그램 실행, 동료와의 소통 등 디지털 근로자와 유사한 방식으로 AI 에이전트를 평가하기 위한 것이었다.
가장 경쟁력 있는 AI 에이전트도 전체 작업의 24%만 자율적으로 완료할 수 있었다. 더 단순한 작업은 자율적으로 수행할 수 있지만, 더 어렵고 장기적인 작업은 여전히 현재 시스템의 능력 밖이라는 것이다.
대규모 언어 모델(LLM)은 패턴을 매칭하는 데 놀라울 정도로 뛰어나다. 하지만 발명가는 아니다. 여전히 프로그래밍의 한계 내에서 움직인다.
오늘날 인공지능은 모방, 종합, 분석에는 뛰어나다. 하지만 독창성, 창조, 미묘한 차이, 판단에서는 어려움을 겪는다. 카네기 멜론 연구자들이 발견했듯이, 애매하고 중요한 환경에서 우선순위를 정하는 것도 어려워한다.
최근 우리는 수많은 문제를 해결해줄 기술에 집단적으로 희망을 걸었다. 메타버스, NFT, 블록체인 기술을 생각해보라. 모두 놀라운 기술적 발전이었지만, 대중은 이러한 도구를 전략으로 오해했다. 지금 우리가 인공지능에 대해 그러는 것처럼.
인공지능은 연구 조수로는 뛰어나다. 시장 분석, 코드 검토, 콘텐츠 요약, 고객 감정 분석을 잘한다. 시간 절약이 된다. 하지만 공동 창업자는 아직 될 수 없다.
우리가 이해해야 할 것은 인공지능이 인간을 대체하는 것이 아니라, 인간 리더십을 보강한다는 점이다. 우리는 이전에 경험해보지 못한 속도로 진화하는 중이다.
카네기 멜론의 실험은 중요한 것을 증명한다. 어떤 것을 CTO라고 이름 붙인다고 해서 제품-시장 적합성을 어떻게 출시해야 하는지 아는 것은 아니다. 어떤 것을 HR이라고 부른다고 해서 ‘문화’를 구축하면서 이해관계자들을 관리하며 사무실 정치의 뉘앙스를 탐색할 수 있는 것도 아니다.
연구진이 발견한 흥미로운 점은 분야별 AI 에이전트의 성공률이 크게 달랐다는 것이다. 소프트웨어 개발 업무에서는 비교적 높은 성공률을 보였지만, 데이터 사이언스, 행정업무, 재무 분야에서는 성공률이 매우 낮았다. 인간에게는 행정이나 재무 업무가 개념적으로 더 쉬운 작업으로 여겨질 수 있지만, AI 에이전트에게는 훨씬 더 어려운 과제였다.
https://platum.kr/archives/259651
- 선택됨
- 현재 페이지1
