Agentic Browser란?

01.12.2026.유상훈
#AgenticBrowser
#AI Agent
#Browser
#AI
#GoogleDisco
#FlowithOS
#A2UI
Report

Agentic Browser란?

안녕하세요. AiNEWT에서 프론트엔드 개발을 담당하고 있는 유상훈 매니저 입니다.

이 글은 최근 화두에 오른 Agentic Browser에 대한 내용을 탐색하고 정리한 내용입니다.

먼저 'Agentic Browser' 라고 검색해보면, 다음과 같이 정의됩니다.

사용자를 대신하여 웹사이트와 상호 작용하고 복잡한 작업을 자율적으로 이행할 수 있는 AI 기반 웹 브라우저

AI 에이전트가 사용자의 입력 대신 웹 네비게이션 역할을 해주는 브라우저

현재 많은 빅테크 기업(Google, OpenAI 등)들이 브라우저 시장에 뛰어드는 상황에서, 어떤 Agentic Browser들이 나서고 있는지 몇 가지 알아보겠습니다.


Google Disco?

1. Google Disco

  • AI 기반 새로운 웹 브라우저 실험 프로젝트
  • GenTabs라는 혁신적 기능을 통해 열린 탭을 분석해 맞춤형 웹 앱 생성
  • 기존 브라우저 경험을 작업 중심 + AI 지원형으로 확장하려는 시도 blog

현재 실험 단계이기때문에, 실제 사용은 waitlist 등록이 필요

GenTabs in Disco, a new Google Labs web browsing experiment

Turn tabs into a custom app with GenTabs in Disco, a new Google Labs experiment

사용자 요청에 도움이 되는 일회용 화면을 AI Agent가 생성해서 바로 사용할 수 있도록 제공하는 개념입니다.


2. Disco의 핵심 기능 — GenTabs

Disco의 가장 중요한 기능은 GenTabs 입니다. (Generated Tabs)

GenTabs란?

사용자가 이미 열어둔 여러 탭과 AI 대화/작업 기록을 분석해 AI가 자동으로 생성하는 맞춤형 인터랙티브 웹 앱 The Verge

기능 설명

  • 작업 중심: 단순 링크 나열이 아니라 목적(예: 여행 계획, 식단표 작성 등)에 맞춘 인터랙티브 앱 형태로 생성
  • AI 이해 기반: Gemini가 사용자의 의도(intent), 열린 탭, 채팅/검색 이력을 바탕으로 앱을 설계
  • 자동화: 때로는 사용자의 명시적 요청 없이도 탭을 분석해 제안 앱을 생성하기도 함

예시

  • 일본 여행 계획 → 지도 + 일정 + 날씨 포함된 웹앱 생성
  • 식단 및 레시피 탐색 → 맞춤 식단 플래너 웹앱
  • 과학 정보 리서치 → 데이터 대시보드 또는 시각화 툴

3. Disco가 기존 브라우저와 다른 점

비교 항목 기존 브라우저 (Chrome 등) Google Disco
역할 웹 페이지 표시 및 탐색 AI 기반 작업 완수 도구
탭 관리 수동적 AI가 탭을 분석 및 요약
사용자 입력 링크 + 키워드 중심 자연어 + 의도 기반
결과 정적 정보 인터랙티브 앱 생성

즉, Disco는 단순 탐색 → 웹 기반 작업 해결로의 전환을 지향


4. 현재 제공 및 제약 사항

  • 현재는 제한적 접근(테스터/대기자 위주)으로 제공됨 blog.google
  • macOS 중심 초기 런칭이 보고됨
  • AI 실험 단계이기 때문에 완전한 제품화 이전이며 기능이 제한적, 오류 가능성 존재

5. Disco의 의의

  • AI + 브라우저의 결합: 단순 검색/링크 열람을 넘어 사용자의 작업(Plan, Organize, Create)까지 AI가 해결하려는 시도 TechNow

  • AI 모델(Gemini) 실전 적용 테스트: 단지 기업용 AI 챗봇이 아니라 실제 사용자 인터랙션 기반 웹 도구 생성을 실험함으로써 AI의 실용성 범위를 확장

  • 브라우저의 미래 인터페이스 연구 : 사용자가 단순히 웹을 “탐색”하는 것을 넘어서 웹을 기반으로 ‘작업을 완성’할 수 있는 환경으로의 진화 가능성을 시사

Flowith OS

FlowithOS는 AI 에이전트 전용 운영 체제로써 소개되는 플랫폼입니다.

전통적인 OS/브라우저 이상의 AI 기반 워크플로우 자동화 환경을 목표로 지향하고 있는 서비스입니다.

Beta 체험을 위해서는 flowith의 X 계정을 팔로우하면 초대 코드를 얻을 수 있다고 합니다..

1. 브라우저? OS?

분명, "Browser" 라고 했는데, 이름이 "OS"라서 의아했습니다.

결론은, 기술적으로는 브라우저에 가깝지만 개념적으로는 OS를 지향하기 때문에 OS라고 부른다고 합니다.

행동의 주체가 사람에서 AI로 이동했고, 커널이나 하드웨어 제어가 아니라 행동·실행의 운영 주체가 사람이 아닌 Agent로 넘어갔기 때문에 OS라고 합니다.


일반 브라우저

사람 → 클릭 → 페이지 → 읽기 → 다음 클릭

FlowithOS

사람 → 목표 선언
        ↓
     AI Agent
        ↓
 로그인 / 탐색 / 입력 / 제출 / 반복

2. 특징

사용자의 목표를 에이전트가 직접 실행합니다.

→ 웹사이트에서 로그인, 정보 수집, 콘텐츠 업로드, 게시까지 자동 완수
→ 복수 서비스 간 워크플로 연결 가능 (예: SNS - Drive- 이메일)

에이전트 기반 작업

에이전트(Agent) 단위 작업 분해를 통해, AI는 단순 질의응답이 아니라 작업을 자동으로 분해 및 재조합하여 처리하는 워크플로 엔진을 제공


기억 기반(Memory-Powered)

단순 프롬프트 기반 도구와 다른 점은 기억 유지입니다.

→ Short/Mid/Long — 다양한 수준 기억 저장으로 반복 실행 시 성능/정확도 향상 가능성 제시합니다.


단순 AI 도구 → 실행 워크플로 기반 플랫폼

기존 챗봇/AI 도구: 사람의 지시에 답변하거나 한 번 수행

FlowithOS: AI가 지속적이고 발전적인 실행, 작업 플로우를 구축·관리하는 환경을 지향.

A2UI (Agent-to-User Interface)

2025년 12월, Google 주도 오픈소스 프로젝트로 공개되었습니다.

1. “Speak UI”

AI 에이전트가 사용자에게 풍부하고 인터랙티브한 UI를 생성하여 제공할 수 있도록 돕는 구글의 오픈소스 프로토콜이자 표준(Standard)입니다.

생성형 AI가 텍스트, 이미지, 코드를 생성하는 데는 탁월하지만, 복잡한 사용자 인터페이스(UI)를 구성하여 전달하는 데는 여전히 어려움을 겪고 있습니다.

현재 대화 맥락에 가장 적합한 UI를 직접 생성하고 이를 프론트엔드 애플리케이션으로 전송할 수 있는 표준 형식을 제공하고, “에이전트가 UI라는 언어를 말하게 하자(Speak UI)”의 슬로건을 내세우고 있습니다.

A2UI가 “오픈 프로토콜”이라는 것의 뜻은?

에이전트가 UI를 전달하는 방법을 JSON 명세로 정의한 약속

  • UI를 어떤 JSON 구조로 표현할지
  • 버튼, 입력창, 리스트, 카드 같은 UI 컴포넌트의 의미
  • 클릭/입력 같은 이벤트를 어떻게 에이전트로 돌려보낼지

A2UI는 ‘코드’를 보내지 않는다

  • 의미(Semantics)만 보내는 프로토콜

예를 들면,

{
  "type": "button",
  "label": "확인",
  "onClick": { "event": "submit" }
}

이 JSON의 의미는:

  • 사용자에게 버튼을 보여준다
  • 라벨은 “확인”
  • 클릭 시 submit 이벤트를 발생시킨다
  • 이 의미는 모든 구현체에서 동일해야 함(프로토콜)

2. 기존의 사용자 - 에이전트 간 인터페이스 비교

A2UI vs. 텍스트 기반 상호작용 (Text-only Interaction): 기존의 텍스트 기반 에이전트는 정보를 전달하기 위해 여러 번의 대화(Turn-taking)가 필요했습니다. 반면 A2UI를 사용하면 에이전트가 적절한 시점에 폼(Form), 버튼, 차트 등의 UI를 제시하여 사용자의 입력을 한 번에 효율적으로 받을 수 있습니다.

A2UI vs. 원격 HTML/JS 전송 (Remote Rendering): 기존에는 원격 서버에서 UI를 그리려면 HTML이나 JavaScript를 클라이언트로 보내 iframe 내에서 실행해야 했습니다. 이는 보안상 위험할 뿐만 아니라(샌드박싱 필요), 호스트 애플리케이션의 스타일과 이질감이 느껴지는 문제가 있었습니다. A2UI는 UI 구조만 데이터로 전송하고 실제 렌더링은 클라이언트가 담당하므로, 앱의 네이티브 스타일과 완벽하게 일치하며 보안적으로도 안전합니다.

A2UI vs. MCP (Model Context Protocol) Apps: 최근 등장한 MCP Apps는 ui:// 리소스를 통해 샌드박스된 HTML 콘텐츠를 반환하는 방식을 사용하고 있습니다. A2UI는 이와 달리 '네이티브 우선(Native-first)' 접근 방식을 취합니다. 불투명한 페이로드를 가져와 보여주는 대신, 네이티브 컴포넌트의 청사진(Blueprint)을 전송하여 호스트 앱의 스타일링과 접근성 기능을 그대로 상속받습니다.

기존 텍스트 기반 상호작용의 한계 (The Clunky Back-and-Forth)

텍스트로만 이루어지는 대화는 사용자와 에이전트 간에 불필요하게 많은 턴(Turn)을 소모

User: "2명 예약해줘."

Agent: "알겠습니다. 날짜는 언제로 할까요?" (1차 되묻기)

User: "내일."

Agent: "시간은요?" (2차 되묻기)

User: "저녁 7시쯤?"

Agent: "그 시간에는 예약이 꽉 찼네요. 다른 시간은 어떠세요?" (예약 실패 및 재질문)

User: "그럼 언제 되는데?"

Agent: "5:00, 5:30, 6:00, 8:30, 9:00, 9:30, 10:00에 가능합니다. 이 중 괜찮은 시간이 있나요?" (가독성이 떨어지는 텍스트 나열)

결국 사용자 경험(UX)을 크게 저하


A2UI를 통한 해결책: 맞춤형 UI 생성 (Bespoke UIs)

에이전트는 더 이상 텍스트로 질문하지 않고, 필요한 도구(UI) 를 건넵니다.

에이전트는 사용자의 의도를 파악하자마자 날짜 선택기(Date Picker), 시간 선택기(Time Selector), 인원수 조절 버튼 등이 포함된 예약 폼(Form) 을 동적으로 생성합니다.

이 때, A2UI는 추상적인 UI 구조만 전달하므로, 실제 화면에 그려지는 디자인은 호스트 앱(Front-end Host App) 이 제어

3. 동작 흐름

사용자 요청 → AI 에이전트

에이전트는 전통적인 텍스트 대신

A2UI JSON 명세로 UI 컴포넌트 트리를 생성

클라이언트 애플리케이션이 JSON을 파싱

네이티브 UI로 렌더링

사용자의 상호작용 이벤트가 다시 에이전트로 전달되어 처리됨

4. 특징

A2UI의 가장 큰 특징은 실행 코드가 아닌 데이터(Declarative JSON)

클라이언트 애플리케이션은 신뢰할 수 있는 UI 컴포넌트(예: Card, Button, TextField) 목록인 '카탈로그'를 유지 관리합니다. 에이전트는 오직 이 카탈로그에 있는 컴포넌트의 렌더링만 요청할 수 있어, UI 인젝션(UI Injection)과 같은 보안 취약점을 원천적으로 차단합니다.

LLM 친화적인 구조 (LLM-friendly)

UI는 ID 참조를 포함한 평면적인 리스트(Flat list) 형태로 표현됩니다. 이는 거대한 트리 구조보다 LLM이 생성하기에 훨씬 효율적이며, 점진적 업데이트(Incremental Update)를 용이하게 합니다. 대화가 진행됨에 따라 에이전트는 UI의 특정 부분만 변경하는 데이터를 보낼 수 있어 반응성 높은 사용자 경험을 제공합니다.

프레임워크 불가지론 (Framework-agnostic)

A2UI는 UI의 '구조'와 '구현'을 분리, 에이전트는 컴포넌트 트리와 데이터 모델에 대한 설명만 전송합니다. 이를 실제 화면에 그리는 것은 웹 컴포넌트(Web Components), Flutter, Angular, React, SwiftUI 등 각 클라이언트의 몫. 따라서 하나의 A2UI JSON 응답이 웹, 모바일 등 다양한 플랫폼에서 각기 다른 프레임워크로 렌더링될 수 있습니다.


Next

일반적인 브라우저에서 AI Agent들의 등장으로 웹 컨텐츠들에도 변화가 생길 것 같습니다. 그 중에서 SEO에 대한 부분들도 많이 바뀔 것으로 예상되는데요, 간단하게 어떤 변화가 생길지 예측해보았습니다.

검색 기반 노출에서 선택 기반 노출로의 전환

1. 기존 SEO 중심 구조

  • 전통적인 SEO의 핵심 목표는 검색 결과 상위 노출
  • 사용자는 여러 결과를 직접 비교·선택
  • 콘텐츠 전략은 클릭을 유도하는 노출 경쟁에 집중

2. AI Agent 등장 이후의 변화

  • AI Agent는 검색 결과를 그대로 나열하지 않음
  • 가장 적합하다고 판단한 정보만 선택·요약하여 사용
  • 사용자는 원문을 직접 읽기보다 에이전트의 선택 결과를 소비

3. 콘텐츠 소비 구조의 변화

  • 노출 경쟁 → 선택 경쟁
  • “보여지는 콘텐츠”보다
    “AI Agent가 채택하는 콘텐츠”가 중요
  • 콘텐츠의 1차 독자가 사람이 아닌 AI Agent가 됨

4. 콘텐츠 전략의 전환 방향

  • AI Agent가 선호하는 구조와 신호에 맞춘 콘텐츠 필요
    • 명확한 핵심 정보
    • 구조화된 데이터
    • 신뢰 가능한 출처와 맥락
  • 단순 트래픽 유도보다 에이전트 활용 가능성이 핵심 지표

5. 상호작용 방식의 변화

  • 사용자가 직접 검색·비교하는 과정 감소
  • 인간–콘텐츠 간 직접적인 상호작용 필요성 하락
  • 대신 Agent–콘텐츠 간 간접 상호작용이 중심이 됨