과거 인터넷 브라우저가 PC시대 기본도구가 됐듯이 AI시대에는 AI에이전트가 기본 도구가 될 것이다. 그래서 구글, 마이크로소프트, 앤스로피, 오픈AI 같은 빅테크들은 수익화의 방안으로 'AI에이전트' 개발에 투자를 아끼지 않고 있다. AI에이전트는 한마디로 온라인상 '비서' 역할을 하는 것이다. 알아서 e-커머스 상에서 물건도 사고 식당 예약도 하는 비서 역할을 하는 것이다.
이런 추세에 맞춰 아마존도 최근 웹 브라우저 내에서 다양한 작업을 수행할 수 있는 인공지능 에이전트인 NOVA ACT를 발표했습니다. 이 에이전트는 온라인 쇼핑, 웹 검색, 일정 관리 등 복잡한 멀티스텝 작업을 자동화하여 사용자들의 생산성을 향상시키는 것을 목표로 한다.
1. NOVA ACT의 주요 기능
- 웹 상호작용 자동화: NOVA ACT는 웹 검색, 상품 구매, 화면 내용에 대한 질문 응답 등 다양한 웹 기반 작업을 수행할 수 있습니다. 예를 들어, 사용자가 "보험 추가 구매를 거절하면서 상품을 구매해줘"와 같은 세부 지시를 내리면, 이를 정확하게 수행할 수 있다.
- 일정 관리 및 작업 스케줄링: 사용자는 NOVA ACT를 통해 특정 시간에 작업을 예약하거나 반복적인 일정을 설정할 수 있습니다. 예를 들어, 매주 화요일 저녁에 자동으로 샐러드를 주문하도록 설정할 수 있습니다.
- 개발자 지원: 아마존은 NOVA ACT SDK를 출시하여 개발자들이 이 에이전트를 활용한 애플리케이션을 개발할 수 있도록 지원하고 있습니다. 이를 통해 복잡한 워크플로우를 신뢰성 있는 단위 명령어로 분해하여 보다 안정적인 에이전트를 구축할 수 있습니다.
2. NOVA ACT의 기술적 우수성
아마존의 AGI(Artificial General Intelligence) 연구소에서 개발한 NOVA ACT는 경쟁사인 OpenAI와 Anthropic의 에이전트보다 높은 성능을 보인다. 내부 테스트 결과, 화면 상의 텍스트와 상호작용하는 ScreenSpot Web Text 테스트에서 NOVA ACT는 94%의 정확도를 기록하였으며, 이는 OpenAI의 CUA(88%)와 Anthropic의 Claude 3.7 Sonnet(90%)보다 우수한 성능이다.
3. NOVA 모델과의 통합
NOVA ACT는 아마존의 최신 기초 모델 세트인 NOVA와 통합되어 있다. NOVA는 텍스트, 이미지, 비디오를 처리할 수 있는 다양한 모델로 구성되어 있으며, 특히 NOVA Reel은 단일 이미지 입력으로 짧은 비디오를 생성하는 기능을 제공하고 이러한 모델들은 Amazon Bedrock을 통해 제공되며, 개발자들은 이를 활용하여 다양한 애플리케이션을 구축할 수 있다.
4. 미래 전망
아마존은 2025년 중반에 텍스트, 이미지, 오디오, 비디오를 입력 및 출력으로 처리할 수 있는 'any-to-any' 모델을 도입할 예정이다. 이를 통해 다양한 모달리티를 이해하고 생성할 수 있는 에이전트를 개발하여 사용자 경험을 한층 향상시킬 계획으로 알려졌다.
NOVA ACT는 이러한 혁신적인 기능과 기술적 우수성을 바탕으로 웹 상호작용의 새로운 패러다임을 제시하며, 사용자들에게 더욱 편리하고 효율적인 디지털 경험을 제공할 것으로 기대된다.
국내기업인 네이버는 AI에이전트를 각 서비스에 접목하고 있다. 특히 커머스 부문에서 지금까지 축적한 데이타를 바탕으로 '커머스 AI에이전트'를 개발하고 있다. 카카오도 AI에이전트 서비스인 '카나나'를 준비중이다.