documents

SkillWeaver는 웹 에이전트가 스스로 기술을 발견하고 개선할 수 있도록 설계된 프레임워크로, 웹 환경을 탐색하고 재사용 가능한 기술을 API 형태로 자동 합성하는 것을 목표로 한다.

1. 자율적 기술 발견 및 연습

웹 환경 탐색: SkillWeaver는 웹사이트 구조를 분석하고 상호 작용하면서 반복되는 패턴을 식별하여 연습할 만한 새로운 기술들을 자율적으로 제안한다.
LLM 활용: Large Language Model (LLM)을 활용하여 웹페이지 관찰 정보(스크린샷, 웹사이트 이름, URL, 접근성 트리)를 기반으로 다양하고 재사용 가능한 기술들을 식별한다.
다양한 작업 유형 제안: LLM은 절차적 작업, 탐색적 작업, 정보 획득 작업의 세 가지 유형의 작업을 제안한다.
- 절차적 작업 (Procedural Tasks): 높은 수준의 프로세스 자동화 목표를 달성하기 위한 일련의 액션들을 요구하는 작업 (예: 이미지와 색상 기반으로 약 식별).
- 탐색적 작업 (Navigational Tasks): 웹사이트 내의 다양한 섹션이나 페이지를 체계적으로 탐색하는 작업 (예: 웹사이트 내 "고객 리뷰" 섹션 탐색).
- 정보 획득 작업 (Information-Seeking Tasks): 웹페이지에서 상세한 데이터를 스크랩하는 작업 (예: GitHub 저장소에서 모든 커밋 추출).

2. API로 기술 정제

기술 연습: LLM 기반 에이전트가 제안된 작업을 완료하기 위해 실제 액션을 수행한다.
보상 모델: LLM을 사용하여 작업 완료 성공 여부를 나타내는 보상 신호를 제공한다. LLM은 작업 설명, 스크린샷과 설명이 포함된 액션 궤적, 코드 실행 결과 및 관찰 가능한 웹사이트 변경 사항과 같은 환경 피드백을 기반으로 reward를 결정한다.
API 합성: 성공적인 궤적에서 에이전트의 액션을 캡슐화하여 재사용 가능하고 일반화된 Python 함수 형태의 API를 생성한다. 각 state-action 쌍을 기반으로 LLM은 Python 구현을 생성한다. 생성된 API는 정적 분석을 통해 일반적인 오류를 검사하고, 오류가 발견되면 LLM은 API를 다시 생성한다.

기술 연마: 합성된 API의 신뢰성을 보장하기 위해 테스트 및 디버깅 단계를 거친다. LLM을 사용하여 API를 테스트하기 위한 적절한 파라미터 값을 생성하고, API를 실행하여 결과를 검증한다. 문제가 발견되면 LLM을 통해 디버깅을 수행하고 API를 수정한다.
지식 베이스: SkillWeaver는 웹사이트에 대한 지식 베이스를 유지하며, API, 웹사이트 구조, 웹페이지 요소에 대한 정보 등을 포함한다. 에이전트는 지식 베이스를 활용하여 작업을 수행하고, 새로운 지식을 학습한다.
기술 검색: 에이전트는 주어진 작업에 유용한 API를 지식 베이스에서 검색한다. LLM은 작업 내용을 분석하고, 관련 API를 식별한다. 에이전트는 검색된 API를 사용하여 작업을 수행한다.

이러한 과정을 통해 SkillWeaver는 웹 에이전트가 스스로 기술을 발견하고 개선하여 복잡한 웹 환경에 적응할 수 있도록 지원하며, 웹 에이전트의 성능을 향상시키고, 재사용 가능한 기술을 공유할 수 있도록 한다.

Follow-up Search