AIエージェントに証拠を残させる方法:スクリーンショットでハルシネーション対策
TL;DR AIの幻覚を4つのステップで止める:(1) Playwrightをインストールし、ブレークポイント(デスクトップ、タブレット、モバイル)を設定する、(2) フルページ、レスポンシブレイアウト、インタラクションをキャプチャするスクリーンショットテストスイートを作成する、(3) 証拠を収集するために ./qa-playwright-capture.sh を実行する、(4) Reali...

Source: DEV Community
TL;DR AIの幻覚を4つのステップで止める:(1) Playwrightをインストールし、ブレークポイント(デスクトップ、タブレット、モバイル)を設定する、(2) フルページ、レスポンシブレイアウト、インタラクションをキャプチャするスクリーンショットテストスイートを作成する、(3) 証拠を収集するために ./qa-playwright-capture.sh を実行する、(4) Reality Checkerエージェントを起動し、主張をgrep結果とスクリーンショットと照合する。エージェントは特定のブロックする問題とともにPASSまたはNEEDS WORKを出力し、もはや幻想的な承認は行われません。 はじめに AIエージェントからの「素晴らしいですね」という言葉を受け入れるのはやめましょう。承認前に視覚的な証拠を必要とする、Playwrightのスクリーンショットを用いた証拠に基づくQAワークフローを構築しましょう。 今すぐApidogを試す あなたがAIエージェントにランディングページのレビューを依頼すると、次のように返答します。 The design looks premium and polished. The glassmorphism effects are well-implemented. The page is fully responsive. Ready for production! あなたがページを開くと、「グラスモーフィズム」は単なる灰色の背景でした。「完全にレスポンシブ」なレイアウトはモバイルで崩れていました。プレミアム感も洗練さも何もありません。 AIエージェントは幻覚を見ます。彼らはあなたが聞きたいことを言います。彼らは対立を避け、すべてを承認します。 The AgencyコレクションのReality Checkerエージェントは異なるアプローチを取ります。 Status: NEEDS WORK Evidence: - grep for "glassmorphism" returned NO PREMIUM FEATURES FOUND - responsive-mobile.png shows broken layout at 375px width - test-results.json shows 3 console erro