AI
25k

画面理解でGUI操作エージェントを実現するMicrosoftのツール

OmniParserは、Microsoftが開発した、スクリーンショットから画面上のUI要素を認識・構造化するスクリーンパーシングツールです。ボタンやアイコンなどの操作可能な領域を検出し、それぞれの機能を説明文付きで抽出することで、GPT-4Vのような視覚言語モデルがGUIを正確に操作できるようにします。HTMLやアクセシビリティツリーに依存せず、純粋に画面の見た目だけから解析できるため、デスクトップアプリを含むあらゆる画面に適用できるのが強みです。画面操作を自動化するGUIエージェントやRPAの高度化に取り組む研究者・開発者に向いています。Computer Use系エージェントの基盤技術として注目されています。

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。