AI
22k

プロンプトのテスト・評価ツール

promptfooは、プロンプトやエージェント、RAGシステムをテスト・評価するためのオープンソースツールです。YAMLの宣言的な設定でテストケースを定義し、GPT、Claude、Geminiなど複数モデルの出力品質を並べて比較できます。CI/CDに組み込めば、プロンプト変更による品質低下(リグレッション)をデプロイ前に検知できます。さらにレッドチーミング機能を備え、プロンプトインジェクションや有害出力などAI特有の脆弱性スキャンも実行できる点が特徴です。OpenAIやAnthropicでも利用されていると公表されています。LLMアプリの品質を継続的に担保したい開発チームや、AIシステムのセキュリティ検証が必要な企業に向いています。MITライセンスでローカル実行でき、データが外部に送信されない点も安心です。

関連トピック

cici-cdcicdevaluationevaluation-frameworkllmllm-evalllm-evaluationllm-evaluation-frameworkllmopspentestingprompt-engineeringprompt-testingpromptsragred-teamingtestingvulnerability-scanners

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。