본문 바로가기

AI

Qwen WebWorld-32B란? 웹 에이전트 학습용 월드 모델 특징과 사용법 총정리

반응형
Qwen WebWorld-32B란? 웹 에이전트 학습용 월드 모델 특징과 사용법 총정리
웹 에이전트 · 월드 모델 분석

Qwen WebWorld-32B란?
웹 에이전트 학습용 월드 모델 특징과 사용법 총정리

WebWorld-32B는 웹 페이지 상태와 사용자의 액션을 바탕으로 다음 웹 상태를 예측하는 대규모 오픈 웹 월드 모델입니다. 웹 에이전트 훈련, 시뮬레이션, 장기 상호작용 연구에 왜 중요한지와 Transformers·vLLM·SGLang 기반 실행법까지 함께 정리합니다.

모델명 Qwen/WebWorld-32B
핵심 역할 웹 에이전트용 월드 모델
주요 입력 형식 A11y · HTML · XML · Markdown · NL
라이선스 Apache 2.0

1. Qwen WebWorld-32B란?

Qwen/WebWorld-32B는 웹 에이전트를 훈련하고 평가하기 위해 설계된 대규모 오픈 웹 월드 모델입니다. 일반적인 챗봇처럼 질문에 답하는 것이 주목적이 아니라, 현재 웹 페이지 상태와 에이전트의 행동을 보고 다음 페이지 상태를 예측하는 것이 핵심입니다.

WebWorld 시리즈는 1백만 건 이상의 실제 웹 상호작용 궤적을 기반으로 학습되었으며, 30단계 이상의 장기 시뮬레이션, 여러 상태 표현 형식, 웹을 넘어 코드·GUI·게임 환경으로의 일반화 가능성을 강조합니다.

핵심 요약: WebWorld-32B는 “웹 브라우저를 대신 열어 주는 챗봇”이 아니라, 브라우저 환경이 다음에 어떻게 변할지를 예측하는 시뮬레이터형 AI 모델에 가깝습니다.
Web Agent World Model Long-Horizon Simulation A11y Tree Browser State Prediction

2. 웹 월드 모델이란 무엇인가?

웹 에이전트는 사용자의 요청을 수행하기 위해 페이지를 탐색하고, 버튼을 누르고, 텍스트를 입력하고, 페이지 전환을 판단해야 합니다. 하지만 실제 웹사이트를 그대로 학습 환경으로 쓰면 네트워크 지연, 접근 제한, 안전 문제, 재현성 부족 같은 문제가 생깁니다.

그래서 등장한 것이 웹 월드 모델입니다. 월드 모델은 어떤 상태에서 어떤 행동을 했을 때 환경이 어떻게 변할지를 예측합니다. WebWorld-32B는 이 원리를 웹 페이지에 적용해, 현재 웹 상태 + 액션 → 다음 웹 상태를 예측하는 방향으로 설계됐습니다.

쉽게 말해: 실제 웹사이트를 계속 조작하지 않아도, “이 버튼을 클릭하면 다음 화면은 어떻게 될까?”를 모델이 시뮬레이션해 볼 수 있도록 돕는 기술입니다.

3. WebWorld-32B의 핵심 특징

3-1. 30단계 이상의 장기 시뮬레이션

WebWorld는 단발성 클릭 예측이 아니라, 여러 액션이 이어지는 멀티턴 장기 궤적 시뮬레이션을 지원합니다. 공식 모델 카드와 저장소에서는 30단계 이상의 연속 상호작용을 다룰 수 있다고 설명합니다.

3-2. 다양한 페이지 상태 표현 형식 지원

WebWorld-32B는 웹 상태를 한 가지 방식으로만 보지 않습니다. 다음과 같은 여러 표현 형식을 다룰 수 있습니다.

  • A11y Tree
  • HTML
  • XML
  • Markdown
  • 자연어 상태 설명

3-3. 포맷 보존형 출력

모델의 특징 중 하나는 입력 상태 포맷을 유지한 채 다음 상태를 예측하도록 설계됐다는 점입니다. 예를 들어 A11y Tree 형식이 들어오면 다음 상태도 A11y Tree 형식으로, HTML이 들어오면 HTML 형식으로 유지하려는 성격을 갖습니다.

3-4. 웹 외 환경으로의 일반화 가능성

논문과 모델 설명에서는 WebWorld가 코드, GUI 데스크톱, 게임 환경에서도 일정 수준의 일반화 성능을 보인다고 제시합니다. 이는 월드 모델 연구가 웹 에이전트 전용을 넘어 더 넓은 에이전트 시뮬레이션 문제로 확장될 수 있음을 시사합니다.

4. WebWorld-32B는 어떻게 동작하는가?

WebWorld-32B의 핵심 입력은 크게 두 가지입니다.

  1. 현재 웹 페이지 상태를 입력합니다. 예: A11y Tree, HTML, XML 등
  2. 에이전트가 수행할 행동을 지정합니다. 예: 클릭, 입력, 스크롤, 이동
  3. 모델은 그 행동 이후의 다음 페이지 상태를 예측합니다.
  4. 이 과정을 여러 번 반복하면 장기 웹 상호작용 궤적을 시뮬레이션할 수 있습니다.

예시 입력

현재 페이지에 검색창이 있고, 에이전트가 검색어를 입력한 뒤 Enter를 누른다.

예시 출력

검색 결과 목록이 표시된 다음 페이지 상태를 예측한다.

Current State + Action
↓
WebWorld-32B
↓
Predicted Next Page State

5. WebWorld가 지원하는 액션 스페이스

WebWorld는 웹 에이전트가 수행할 수 있는 여러 행동을 Python 스타일 함수 호출 형태로 통일해 표현합니다.

분류 액션 설명
Element click(bid, button, modifiers) DOM 요소를 ID 기준으로 클릭
Element fill(bid, text, press_enter) 입력창에 텍스트 작성
Element select_option(bid, options) 드롭다운 옵션 선택
Element hover(bid) 요소 위로 마우스 올리기
Mouse mouse_move(x, y) 좌표 기반 마우스 이동
Mouse mouse_click(x, y, button) 좌표 위치 클릭
Keyboard keyboard_press(key) Enter, Tab 등 키 입력
Keyboard keyboard_type(text) 문자열 순차 입력
Browser scroll(dx, dy) 화면 스크롤
Browser goto(url) 특정 URL로 이동
Browser go_back() / go_forward() 브라우저 히스토리 이동
Meta send_msg_to_user(text) 사용자에게 메시지 전달
Meta noop(wait_ms) 지정 시간 대기
Meta infeasible(reason) 작업 수행 불가 선언

6. Qwen WebWorld-32B 실행 방법

6-1. Transformers로 기본 로딩

from transformers import pipeline

pipe = pipeline("text-generation", model="Qwen/WebWorld-32B")

messages = [
    {"role": "user", "content": "Who are you?"}
]

pipe(messages)

6-2. AutoTokenizer + AutoModelForCausalLM 직접 사용

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/WebWorld-32B")
model = AutoModelForCausalLM.from_pretrained("Qwen/WebWorld-32B")

messages = [
    {"role": "user", "content": "Who are you?"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

6-3. vLLM으로 OpenAI 호환 서버 실행

pip install vllm
vllm serve "Qwen/WebWorld-32B"
curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  --data '{
    "model": "Qwen/WebWorld-32B",
    "messages": [
      {
        "role": "user",
        "content": "What is the capital of France?"
      }
    ]
  }'

6-4. SGLang으로 서버 실행

pip install sglang

python3 -m sglang.launch_server \
  --model-path "Qwen/WebWorld-32B" \
  --host 0.0.0.0 \
  --port 30000

6-5. Docker Model Runner

docker model run hf.co/Qwen/WebWorld-32B
참고: 일반 텍스트 생성 호출 예시는 모델 로딩 확인용으로 볼 수 있습니다. WebWorld의 본래 강점은 페이지 상태와 액션을 넣어 다음 상태를 예측하는 월드 모델 사용 시나리오에 있습니다.

7. 공개된 성능 지표 정리

모델 카드에서는 WebWorld-Bench, 에이전트 훈련 성능, 크로스 도메인 일반화 결과가 함께 제시됩니다.

7-1. WebWorld-Bench 평가

모델 Avg Factuality Avg Turing
GPT-4o59.535.4
Claude-Opus-4.171.347.4
Gemini-3-Pro70.343.2
Qwen3-8B (base)26.917.4
WebWorld-8B70.142.2
WebWorld-14B70.744.7
WebWorld-32B71.045.6

7-2. 에이전트 학습 성능 개선

모델 MiniWob++ SR WebArena SR
GPT-4o64.3%26.6%
Qwen3-8B (base)49.4%9.8%
Qwen3-8B + WebWorld59.3% (+9.9%)20.7% (+10.9%)
Qwen3-14B (base)54.9%15.1%
Qwen3-14B + WebWorld63.2% (+8.3%)24.3% (+9.2%)

7-3. 크로스 도메인 일반화

환경 Qwen3-8B WebWorld-8B 향상 폭
API Services0.0880.299+0.211
Code0.1470.396+0.249
Game0.2530.473+0.220
GUI Desktop0.3220.705+0.383
해석 포인트: 공개된 결과는 WebWorld가 단순 텍스트 생성보다 에이전트 훈련용 환경 모델링과 시뮬레이션에서 의미 있는 개선 가능성을 보여준다는 점에 초점이 있습니다.

8. 어떤 분야에 활용할 수 있을까?

웹 에이전트 학습

브라우저 조작형 에이전트에게 다양한 행동 결과를 가상으로 경험시키는 데 활용할 수 있습니다.

추론 시 Lookahead Search

실제 행동 전 여러 후보 액션의 결과를 예측해 더 나은 다음 행동을 고르는 데 도움을 줄 수 있습니다.

합성 궤적 데이터 생성

학습용 웹 상호작용 trajectory를 대규모로 생성하는 연구 흐름에 활용됩니다.

브라우저 자동화 연구

HTML, A11y Tree, 액션 기반 자동화 파이프라인을 실험하는 개발자에게 유용합니다.

9. 한계와 주의점

모델 카드에서는 WebWorld의 한계도 분명하게 제시합니다.

  • 낙관적 편향: 에이전트가 의도한 행동의 결과를 지나치게 유리하게 예측할 수 있습니다.
  • 정밀 장문 생성이 주목적은 아님: 과학 논문처럼 긴 고정밀 텍스트 생성은 핵심 타깃이 아닙니다.
  • 텍스트 기반 시뮬레이션: 픽셀 수준의 실제 시각 렌더링을 그대로 시뮬레이션하는 모델은 아닙니다.
중요: WebWorld-32B는 실제 브라우저 렌더링을 완전히 대체하는 그래픽 시뮬레이터가 아니라, 텍스트화된 웹 상태 전이를 예측하는 모델입니다.

10. 결론

Qwen WebWorld-32B는 웹 에이전트를 단순히 실행하는 모델이 아니라, 에이전트가 활동할 웹 환경 자체를 시뮬레이션하는 월드 모델이라는 점에서 의미가 큽니다.

현재 페이지 상태와 행동을 입력받아 다음 상태를 예측하고, 이를 반복해 장기적인 웹 상호작용 궤적을 구성할 수 있기 때문에, 웹 자동화, 브라우저 에이전트, synthetic trajectory 생성, inference-time search 연구에서 중요한 기반 모델로 활용될 가능성이 있습니다.

특히 웹 에이전트 개발을 직접 시도하고 있거나, 브라우저 환경을 로컬에서 모사해 LLM 에이전트 성능을 개선하려는 개발자라면 WebWorld-32B는 충분히 살펴볼 가치가 있는 최신 모델입니다.

참고 자료

© BatteryFriends Blog. 본 문서는 Qwen WebWorld-32B 모델 소개와 사용법 설명을 위한 SEO형 블로그 HTML 예시입니다.
반응형