What is Peekaboo?
您的 AI 代理在程式碼世界中運作,然而您的工作卻在視覺化的桌面上進行。Peekaboo 彌補了這個關鍵的鴻溝,提供一個高效能的伺服器,賦予您的 AI 助理在 macOS 上「看見」的能力。它讓 AI 代理能夠無侵入式地擷取螢幕內容並進行分析,釋放出一種全新、強大且具備情境感知能力的自動化與偵錯方式。
主要功能
⚡️ 無侵入式、高速擷取 Peekaboo 利用 Apple 原生 ScreenCaptureKit 框架,能即時擷取您的整個螢幕、特定應用程式或個別視窗。此過程在背景執行,不會改變您的作用中視窗或中斷您的工作流程,確保您的自動化作業順暢可靠。
🧠 整合式視覺問答 (VQA) 不僅僅是擷取像素,更能從中提取洞察。您可以在任何擷取請求中一併傳送問題,Peekaboo 將利用具備視覺能力的 AI 模型分析影像,並傳回結構化的答案。這將簡單的螢幕截圖轉化為您 AI 代理可據以行動的資料。
🎯 智慧且彈性的目標定位 您可以精確鎖定要擷取的內容,從最上層視窗到整個應用程式的所有視窗。Peekaboo 的模糊匹配功能使其即使只提供部分名稱,也能可靠地找到正確的應用程式或視窗,讓您的腳本更具韌性,不易出錯。
🔒 隱私優先,支援本機 AI 您的資料隱私至關重要。Peekaboo 提供您選擇,可使用強大的雲端模型如 GPT-4o 和 Claude,或在您自己的機器上執行所有操作。透過對 Ollama 的完整支援,您可以在本機執行所有視覺分析,確保您的螢幕資料絕不會離開您的 Mac。
Peekaboo 如何解決您的問題:
Peekaboo 專為實際且真實的開發者情境而設計。以下是您可以如何運用它的方式:
自動化 UI 測試與驗證: 您的代理可以在應用程式中執行動作,擷取結果,並詢問 Peekaboo:「現在是否出現帶有『Update Successful』文字的確認訊息?」這提供了一種簡單卻強大的方式來驗證 UI 狀態。
智慧錯誤偵錯: 當腳本失敗時,一個「盲」的代理會束手無策。透過 Peekaboo,您的代理可以在失敗瞬間自動擷取螢幕,並詢問:「紅色警示框中的錯誤訊息完整文字是什麼?」以獲得自行修正或準確回報問題所需的上下文。
從任何應用程式提取內容: 需要從沒有 API 的舊版應用程式中提取資料嗎?您的代理可以擷取應用程式視窗,並詢問特定問題,例如:「右上角標示為『Account Balance』的值是什麼?」直接從使用者介面提取結構化資訊。
獨特優勢
原生 macOS 效能與可靠性 Peekaboo 並非笨重、跨平台的工具程式。它採用原生 Swift CLI 與 TypeScript 伺服器的組合構建,前者用於直接存取 macOS API,後者則適用於現代開發。這種混合式架構確保了最佳效能、穩定性,以及與作業系統的無縫整合。
專為現代 AI 開發者工作流程而生 從 Cursor IDE 的一鍵安裝,到簡單的
npx命令以及透過環境變數進行配置,Peekaboo 旨在輕鬆融入您現有的工具鏈。其簡潔的 JSON API 和強固的錯誤處理,使其成為任何嚴肅 macOS AI 代理專案的可靠組件。
結論:
Peekaboo 為您的 AI 代理提供了缺失的感官,讓它們能夠像人類一樣感知並與 macOS 圖形使用者介面 (GUI) 互動。它讓 AI 代理超越了簡單的命令列任務,成為真正能結合視覺上下文進行測試、偵錯和工作流程自動化的強大助理。




