RL과 메모리 기반 개인 에이전트, Macaron AI 실측

IT뉴스를 읽다

다양한 IT뉴스를 읽고 흥미로운 기사를 공유해요

손님 5.8만단골 114글 114

RL과 메모리 기반 개인 에이전트, Macaron AI 실측

brooks

RL과 메모리 기반 개인 에이전트, Macaron AI 실측

인공지능은 생산성뿐만 아니라 인간관계와도 관련이 있습니다.

인간과 인공지능의 관계는 일반적으로 두 가지 유형으로 나뉩니다: 유용한 조력자와 가상의 캐릭터입니다.

ChatGPT, Gemini, Claude, Cursor 등의 조력자는 과제 해결에 매우 효율적입니다. 그들의 성공은 의심의 여지가 없으며, ChatGPT만 해도 현재 약 3억 명의 일일 활성 사용자를 보유하고 있습니다. 그러나 이들과의 관계는 여전히 거래 수준에 머물러 있으며 감정적 깊이가 부족합니다.

Character.ai, Talkie, MidReal 등으로 대표되는 가상의 캐릭터들은 매력적인 서사와 감정적 공감을 통해 사용자를 사로잡습니다. 사용자들은 처음에는 이러한 가상 세계에 열광합니다. 그러나 시간이 지남에 따라 장시간 몰입은 공허함과 현실과의 단절감을 불러일으키며, 결국 탈출을 갈망하게 만듭니다. 위로가 되어야 할 관계가 오히려 해결되지 않은 현실 세계의 문제를 증폭시키는 것입니다.

마카롱 AI가 추구하는 것은 세 번째 길: 도라에몽 관계입니다. 장기 기억 + 강화 학습 기술을 통해 실용적인 해결책과 정서적 온기를 하나로 융합합니다.

이상은 마카롱 AI CEO 천카이지에가 마카롱 공식 블로그에 게재한 글[1]에서 발췌한 것으로, 우리는 이를 원본 그대로 옮겨와 가장 순수한 형태로 마카롱 AI의 초심을 이해하고자 합니다. 본 글은 기술적 차별점과 여러 사용 사례를 분석하여 마카롱 AI의 제품 가치를 심층적으로 탐구할 것입니다.

💡 목차 💡

01 6가지 Q&A로 빠르게 알아보는 마카롱 AI

02 기술적으로 마카롱 AI의 차별점

03 2가지 활용 사례로 직접 체험하는 마카롱 AI

04 제안

6가지 Q&A로 빠르게 알아보는 Macaron AI

Macaron AI CEO 천카이지에(Chen Kaijie)는 Macaron 출시 전, 전 세계 300만 명 이상의 사용자를 보유한 AI 스토리텔링 플랫폼 MidReal을 창업했습니다. 또한 GPT-2를 활용해 AI 게임 에이전트를 구축했으며, 약 150만 달러 ARR 규모의 봇 기업도 운영한 경험이 있습니다. 이처럼 해당 팀은 AI 앱에 대한 풍부한 이해와 실무 경험을 보유하고 있음을 알 수 있습니다.

Q&A 형식으로 Macaron AI의 차별점을 빠르게 알아보겠습니다.

Q1: 동일한 대화형 인터페이스임에도, Macaron AI의 포지셔닝은 일반적인 지능형 에이전트나 동반형 지능형 에이전트와 어떻게 다른가요?

A: 대부분의 일반 지능형 에이전트는 생산성 도구로 포지셔닝되어 문서 작성, 자료 검색, 정보 요약 등을 지원합니다. 동반형 지능형 에이전트는 감정적 가치를 제공합니다. 반면 Macaron AI는 이 둘 사이에서 장기적 동반, 감정적 공명, 능동적 도움을 강조합니다.

Q2: 제품 기능 측면에서 Macaron AI의 독보적인 특징은 무엇인가요?

A: Macaron AI는 장기 기억(Deep Memory)을 도입하여 자연어와 대화를 기반으로 사용자를 위한 다양한 미니 앱(Mini Apps)을 생성합니다:

기억 시스템: 사용자의 선호도, 습관, 목표, 심지어 감정 반응까지 장기적으로 기억하고 후속 대화에서 능동적으로 활용합니다. 예를 들어 사용자가 이전에 “여행 준비로 저축 중”이라고 언급했다면, 다음에 소비 관련 대화가 나올 때 예산을 고려할 것을 상기시켜 줍니다.
자동 생성 미니 앱: 사용자의 요구를 도구화하여 경량화된 애플리케이션을 생성합니다. 예를 들어 청구서 분류, 일정 알림, 학습 진도 추적 등이 가능하며, 단순히 텍스트 답변을 제공하는 데 그치지 않습니다. 이는 통의천문(通义千问)의 “발견형 에이전트”와 유사하게 도구 상점을 제공하거나 대화 중 맞춤형 도구를 생성할 수 있지만, 마카롱은 강화 학습 기반 자동 생성으로 사용자 습관에 더 가깝습니다.

Q3: 마카롱 AI는 어떤 핵심 기술을 사용하나요?

A: 주로 세 가지 측면에서 구현됩니다:

장기 기억: 마카롱은 “내장형 심층 기억”을 통해 사용자의 핵심 데이터를 지능적으로 기억합니다.
강화 학습: 시스템 프롬프트를 통해 모델 출력을 미세 조정할 뿐만 아니라, RL 메커니즘을 통해 동적으로 최적화합니다: 무엇을 기억하고, 무엇을 잊을지, 언제 기억을 호출할지 결정합니다.
컨텍스트 분할 처리: 입력 또는 출력이 길 경우, 이를 분할 처리하고 기억과 결합하여 결과를 생성함으로써 망각이나 주제 이탈을 방지합니다.

Macaron의 핵심 기술은 모두 '기억'이라는 제품 설계의 초석 주위로 전개된다고 이해할 수 있습니다.

Q4: “내장형 심층 기억”을 어떻게 이해해야 하나요?

“내장형 심층 기억”은 기억이 시스템 아키텍처의 일부로서 대화 맥락을 벗어나 능동적으로 기록/읽기/잊기를 결정하며, 에이전트의 장기 목표와 긴밀히 연계되어 공동 최적화됨을 의미합니다. 이는 단순히 맥락 정보를 저장하는 것이 아닌, Macaron이 사용자를 가장 잘 이해하는 궁극적 목표를 실현하기 위함입니다.

공식 공개된 정보에 따르면, “내장형 심층 기억”은 다음과 같습니다:

기본 활성화: 기억은 Macaron의 설계 기반입니다.
선택적 저장: RL을 통해 장기 보존 가치가 있는 정보를 판단합니다.
능동적 호출: 응답 생성 시 기억이 추론 경로에 능동적으로 통합됩니다. Agentic Memory 개념과 유사하며, “내장형 심층 기억”을 Agentic Memory의 제품화 구현으로 이해할 수 있습니다.

기술적 관점에서 Macaron AI는 기억을 핵심 논리로 삼고 RL 프레임워크와 긴밀히 결합하여 구축된 제품입니다.

Q5: 이러한 설계는 사용자에게 어떤 경험 차이를 가져올까요?

A: 두 가지 시나리오를 상상해 볼 수 있습니다:

ChatGPT에 “생활비를 기록해 줘”라고 요청하면, 어떤 지출을 집계할지, 어떻게 분류할지 묻고 최종적으로 표를 제공할 수 있습니다.
Macaron에 “최근 지출이 좀 많아.”라고 말하면:

이러한 경험 차이는 Macaron의 장기 기억 + 도구 생성 메커니즘에서 비롯됩니다.

Q6: 사용자가 특정 기억을 삭제할 수 있나요?

A: 기억은 Macaron의 핵심 제품 논리입니다. 공식적으로 개별 기억 삭제 옵션은 제공하지 않지만, 대화를 통해 Macaron이 특정 내용을 잊도록 유도할 수 있습니다. 이는 ChatGPT 등 다른 기억 기능 제품과의 차이점입니다. ChatGPT는 사용자 개인정보 및 데이터 보안을 고려해 저장된 기억 활성화/비활성화 옵션을 제공합니다.

기술적으로 Macaron AI는 무엇이 다른가?

Macaron AI가 현재 공개한 인프라 및 알고리즘 관련 기술적 세부 사항은 아직 제한적이며, 주로 공식 기술 블로그[2]에 소개된 내용이 전부입니다.

비용 최적화

Macaron은 자체 개발한 전동기 강화 학습(All-Sync RL) 아키텍처, LoRA 적용 및 자체 개발 다중 컨볼루션 DAPO 프레임워크의 시너지 효과를 통해 GPU 유휴 시간을 최소화하고 훈련 시간을 단축합니다. 예를 들어, 기존에 9시간이 소요되던 전형적인 단계가 현재는 1.5시간 만에 완료됩니다. 결국 DeepSeek의 6710억 파라미터 모델은 48개의 H100 GPU만으로 훈련을 완료할 수 있었으며, 동등한 구성에서는 일반적으로 512개가 필요했습니다.

기억 효과

자체 개발한 다중 컨볼루션 DAPO 프레임워크를 표준 그룹 정책 최적화(GRPO) 대신 활용하여 기억 시스템을 구축한 이 모델은 극히 긴 생성 시퀀스에서 맥락과 일관성을 유지하는 능력을 보여주며, 완전한 소프트웨어 프로젝트를 성공적으로 생성했습니다. 예를 들어, 사용자 선호도를 유지하고 외부 API와 정확히 통합되는 맞춤형 일상 의상 추천 도구를 생성했습니다. 이러한 엔드투엔드 강화 학습 기억 방식은 복잡한 상태 기반 에이전트 개발 분야의 중대한 진보를 의미합니다.

이 기억 시스템은 FireAct에 의해 최초로 검증되었습니다. FireAct는 Macaron 팀과 Karthik Narasimhan(원본 GPT 논문 공동 저자), OpenAI 연구원 Yao Shunyu가 2023년 공동 수행한 연구입니다. FireAct는 복잡한 추론 작업에서 강화 학습을 통해 사후 경로를 미세 조정하는 에이전트 행동이 프롬프트 기반 방법보다 77% 더 우수함을 최초로 실증적으로 입증했습니다.

긴 입력 처리 시, 기존의 Long-Context LLM이 모든 내용을 직접 입력하는 방식과 달리, RL 기반 에이전트 메모리(Agentic Memory via RL)를 활용하여 단일 대화 최대 길이 제한 내에서 블록 단위로 결합된 기억을 단계적으로 처리합니다. 긴 출력 생성 시에도 RL 기반 에이전트 메모리를 활용하여 문제와 지속적으로 업데이트되는 기억을 결합해 단계적으로 사고 과정과 최종 답변을 생성합니다.

요약하면, 마카롱의 기억 시스템은 지속성, 자기 진화 및 최적화 특성을 지닙니다. 즉, 각 상호작용 시작 시 실시간 검색, 요약 및 컨텍스트 업데이트를 트리거하기 위해 전용 기억 토큰(표준 추론 토큰과 다름)을 활성화합니다. 이 토큰은 단순히 정보를 회상하는 것 이상으로, 학습된 보상 신호에 따라 기억체로 하여금 무엇을 기억할지, 언제 업데이트할지, 어떻게 기억을 활용할지 결정하도록 돕습니다.

전용 데이터셋

이 데이터셋(548GB 이상)은 팀의 이전 제품인 인터랙티브 스토리 플랫폼 MidReal에서 수집한 수백만 건의 사용자 상호작용으로 구성됩니다. RL을 통해 모델을 훈련시켜 더 매력적으로 만들고, 암묵적 사용자 요구를 더 잘 추론하며, 더 강력한 신뢰를 구축하는 방법을 연구하기 위해 활용됩니다.

이 상호작용 중 상위 5%에 해당하는 고품질 하위 집합을 선별함으로써, 모델의 기억 유지, 도구 활용 및 복잡한 대화 기술 측면의 능력을 한층 강화하는 것을 목표로 합니다.

서버리스

Macaron이 생성하는 소형 도구는 모두 서버리스 컴퓨팅으로 구동되며, 이는 전형적인 미니 프로그램 시나리오라 할 수 있습니다. 위챗이나 알리페이와 달리 기업이 미니 프로그램을 만드는 방식과는 다릅니다. Macaron의 '미니 프로그램'은 C-엔드 사용자가 자연어로 생성하는 소형 도구로, 규모가 더 크고 트래픽이 예측하기 어렵습니다. 따라서 서버리스 컴퓨팅은 비용 측면에서 큰 이점을 가집니다.

내장형 소도구 또는 소프로그램이 Personal Agent 같은 제품 형태의 표준 기능이 된다면, 서버리스는 AI 인프라에서 더욱 중요한 역할을 수행할 것임을 알 수 있습니다.

2가지 사용 사례로 검증하는 Macaron AI

Macaron 가입 후 “완벽한 주말을 어떻게 보내고 싶나요?” 같은 질문에 답변해야 합니다. 이 질문들은 Macaron이 대화를 시작하는 서두가 됩니다.

사용 사례 1: 러닝 어시스턴트

온보딩 과정에서 “완벽한 주말을 어떻게 보내고 싶나요?”라는 질문에 '야외 활동'을 선택했기 때문에, Macaron은 처음부터 야외 관련 주제로 대화를 시작하며 매우 적극적으로 도구 제작을 유도했습니다. 이는 Macaron이 RL(강화 학습)을 적용받은 결과로, 범용 에이전트와는 차별화된 성격과 능력을 부여받았으며, 특히 소형 도구 제작이라는 과제 지향적 특성을 강화한 것으로 보입니다.

그래서 저는 “러닝 어시스턴트”라는 작은 도구를 만들자고 제안했습니다. 달리기 거리, 시간, 페이스 기록을 요구하며, Keep과 비교해 계수 정확도를 확인하려는 목적이었죠. Macaron의 프로그래밍 능력, 특히 킬로미터 수 집계 기능이 단순한 프론트엔드 상호작용과 로컬 계산 이상의 것인지 살펴보고 싶었습니다.

왼쪽은 Keep, 오른쪽은 Macaron:

달리기 시간: 휴대폰 시간 데이터를 직접 호출하는 것으로 추정되므로 차이가 작습니다.
킬로미터 수: 환경 인지가 필요하며 GPS 정확도 문제, 센서 노이즈, 기기 차이와 같은 도전 과제에 직면해 지속적으로 적응해야 정확히 표시됩니다. 따라서 차이가 매우 큽니다.
페이스: 달리기 시간과 킬로미터 수를 기반으로 계산되며, 킬로미터 수 편차로 인해 페이스 편차도 큽니다.

데이터 정확도는 Keep에 훨씬 못 미치지만, 인터페이스가 명확하고 기능이 완비되어 괜찮은 편입니다. 기반 모델의 프로그래밍 능력이 점차 향상됨에 따라 데이터 정확도도 높아질 것입니다.

사용 사례 2: 고온 날씨 순위

이 사례는 Macaron의 네트워크 검색 능력과 외부 시스템 및 데이터 호출 능력을 테스트하기 위한 것입니다.

프롬프트:

1. 중국 성도(省会) 및 직할시(直辖市)를 포함한다.

2. 특정 날짜를 선택해 온도 순위를 확인할 수 있다.

3. 당일 최고 기온 기준으로 계산하여 상위 50개 도시를 표시한다.

4. 네트워크 검색 또는 제3자 날씨 API 호출 중 어느 방법을 사용하든 순위가 정확해야 한다.

Macaron은 생성 시간이 일반적으로 15~20분 소요됩니다. 이 기간 동안 계속해서 사용자와 소통합니다. 대화와 위젯 제작이 비동기적으로 진행되며, 두 가지 대규모 모델 서비스를 사용함을 알 수 있습니다. 대화는 RL(강화 학습)을 적용했고, 위젯 제작은 하위 모델의 코딩 능력을 활용합니다. 하위 컴퓨팅 자원은 대부분 서버리스 형태로, 사용자 명령으로 호출되는 이러한 작업은 서버리스 컴퓨팅에 자연스럽게 적합합니다.

결과는 다음과 같습니다:

장점:

위젯 아이콘이 ‘마카롱’ 특유의 느낌을 잘 살렸습니다.
인터페이스에는 일정한 디자인 기준이 적용되어 색상 구성에 어색함이 없고 화면이 복잡하지 않습니다.
상위 3개 도시와 기타 도시를 색상으로 구분했습니다.

Macaron은 LoRA(저차원 적응)를 활용해 위젯 인터페이스와 아이콘을 강화하여 안정적이고 시각적으로 통일된 효과를 얻었을 가능성이 있습니다.

단점:

대상 도시를 잘못 선택했습니다. 프롬프트는 성도(省会)와 시할시(市辖市)를 요구했으나, 순위표에 다른 도시가 포함되었습니다.
애플 기본 날씨 앱 및 모지 날씨와 비교 시 온도 데이터에 편차가 있습니다. 예를 들어 시안(十堰)과 루저우(泸州)의 최고 기온은 각각 37℃와 35℃인데, 최고 기온 38℃인 항저우(杭州)는 순위표에 없습니다.

마카롱의 위젯 생성 코딩 능력은 아마도 기반 대규모 모델의 원생 기능으로, 강화나 최적화가 이루어지지 않은 것으로 보입니다(사실과 다를 경우 댓글로 지적해 주시기 바랍니다). 해당 기술 블로그에서도 관련 정보가 공개되지 않았습니다.

두 가지 사용 사례를 통해 Macaron의 제품 역량을 대략 파악할 수 있었습니다. 대화 능력은 매우 독특한데, 이는 ‘기억을 핵심 제품 로직으로 삼은’ 결과입니다. 사용자가 지속적으로 인내심을 가지고 대화를 이어간다면 더 많은 작은 놀라움을 경험할 수 있을 것입니다. 위젯의 효과, 특히 대규모 모델의 온라인 검색이라는 기본 역량 강화 측면에서는 아직 개선의 여지가 많습니다.

제안

전반적으로 개인적으로 Macaron은 매우 혁신적인 에이전트이며, 독특한 사용 방식을 제공합니다. Macaron과 상호작용이 빈번하고 시간이 길수록 더 많은 혜택을 얻고 충성도도 높아집니다. 여기에 두 가지 작은 제안을 드립니다.

게이트웨이 업그레이드

다음 날 러닝 어시스턴트를 실행했을 때 다음과 같은 오류가 발생했습니다. 백엔드 서비스 체인 중 한 계층에서 404를 반환했을 가능성이 있습니다. 예를 들어:

Nginx 리버스 프록시 구성 오류: 프론트엔드 작업으로 인해 location 경로가 일치하지 않거나 프록시 전달 upstream 주소가 잘못되어 Nginx가 백엔드 서비스를 찾지 못함.
백엔드 API 서비스 미실행 또는 중단: Nginx는 올바르게 구성되었으나 해당 서비스가 리스닝하지 않아 404를 반환함.
게이트웨이/로드 밸런싱 계층 이상: 게이트웨이 라우팅이 적용되지 않았거나 Pod가 등록되지 않아 Nginx가 대상을 찾을 수 없음.
정적 리소스 경로 문제: 미니 프로그램이 특정 정적 파일(JS/CSS/이미지)을 요청했으나 Nginx에 해당 디렉터리나 매핑이 없어 404를 반환함.

어떤 경우든 근본적으로 트래픽 진입점인 게이트웨이가 충분한 서비스 가용성 보장을 하지 못한 것입니다. 전체 백엔드가 K8s에 배포된 경우, Higress 또는 그 상용 버전으로 마이그레이션을 시도해 볼 수 있습니다. 이는 헬스 체크, 재시도/서킷 브레이커/다운그레이드, 그레이스케일/다중 버전 관리, 가시성 측면에서 향상된 서비스를 제공합니다.

더 성숙한 프로그래밍 기능 도입

위젯 제작은 Macaron의 두 가지 핵심 제품 역량 중 하나입니다(다른 하나는 RL 기반 장기 기억 기능). 따라서 위젯의 효과는 사용자 유지율과 제품 확산에 크게 좌우됩니다. 더 성숙하고 안정적인 프로그래밍 기능을 도입하면 Macaron의 제품 경험이 크게 향상될 것입니다.

[1] https://macaron.im/ai-relationships-not-just-productivity

[2] https://macaron.im/efficient-on-policy-reinforcement-learning

등록된 샷 리스트

댓글 1

댓글 정렬방식 선택