LLMオブザーバビリティ比較:Langfuse vs Phoenix vs Helicone でAIアプリを監視する
オープンソースラボ編集部 ・ 2026年6月17日
LLMオブザーバビリティ比較:Langfuse vs Phoenix vs Helicone でAIアプリを監視する
🔍 プロダクションのLLMアプリに何が起きているか把握できていますか?Langfuse・Phoenix・Heliconeでトレース・コスト・品質を可視化しましょう。
LLMオブザーバビリティとは
LLMアプリのプロンプト・レスポンス・レイテンシー・コスト・エラーをトレースし、品質問題の検出と改善を行う仕組みです。RAGの検索精度やエージェントの実行ステップも可視化できます。
主要ツール比較表
| 項目 | Langfuse | Phoenix(Arize) | Helicone |
|---|---|---|---|
| ライセンス | MIT | Apache 2.0 | Apache 2.0 |
| セルフホスト | ◎ | ◎ | ◎ |
| クラウド版 | ◎ | ◎ | ◎ |
| トレース | ◎ | ◎ | ◎ |
| プロンプト管理 | ◎ | △ | △ |
| 評価(LLM-as-Judge) | ◎ | ◎ | △ |
| コスト追跡 | ◎ | ○ | ◎ |
| RAGトレース | ◎ | ◎(Evals特化) | △ |
| データセット作成 | ◎ | ◎ | △ |
| A/Bテスト | ◎ | △ | ◎(ゲートウェイ) |
| OpenTelemetry対応 | ◎ | ◎ | ○ |
各ツールの特徴
Langfuse
オープンソースのLLMオブザーバビリティプラットフォームとして最も広く採用されているツール。プロンプト管理・トレース・評価が一体化しています。
主な特徴:
- 詳細なトレース(トークン数・レイテンシー・コストを階層表示)
- プロンプトのバージョン管理とA/Bテスト
- LLM-as-Judgeによる自動品質評価
- LangChain・LlamaIndex・VercelAI等との1行統合
# Langfuse: Python SDKでトレース
from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from anthropic import Anthropic
langfuse = Langfuse(
public_key="pk-lf-...",
secret_key="sk-lf-...",
host="https://cloud.langfuse.com", # セルフホストも可
)
anthropic_client = Anthropic()
@observe() # デコレータ1つでトレース開始
def analyze_code(code: str) -> str:
'''コードを分析してレビューを生成'''
langfuse_context.update_current_observation(
input=code,
metadata={"language": "python"},
)
response = anthropic_client.messages.create(
model="claude-haiku-4-5-20251001",
max_tokens=1024,
messages=[{"role": "user", "content": f"Review this code:
{code}"}],
)
result = response.content[0].text
langfuse_context.update_current_observation(
output=result,
usage={
"input": response.usage.input_tokens,
"output": response.usage.output_tokens,
},
)
return result
# スコアによる品質評価
def score_review(trace_id: str, score: float):
langfuse.score(
trace_id=trace_id,
name="review_quality",
value=score, # 0.0〜1.0
comment="人間によるレビュー評価",
)
# LangChainとの統合(1行追加のみ)
from langfuse.callback import CallbackHandler
handler = CallbackHandler(
public_key="pk-lf-...",
secret_key="sk-lf-...",
)
chain.invoke({"input": "質問"}, config={"callbacks": [handler]})
向いているケース: プロダクションLLMアプリ・プロンプト管理・品質評価ループ
Phoenix(Arize)
MLエンジニアリングの老舗ArizeのオープンソースLLMデバッグツール。RAGの検索品質評価とデータセット評価に特化した機能が充実しています。
主な特徴:
- RAGのRelevance・Faithfulness・AnswerRelevanceを自動評価
- LLMトレースのOpenTelemetry標準準拠
- Jupyter Notebookから起動できるローカルUIで即座に分析
- LlamaIndex・LangChain・DSPy等の統合が充実
# Phoenix: RAGパイプラインの評価
import phoenix as px
from phoenix.otel import register
from openinference.instrumentation.langchain import LangChainInstrumentor
# Phoenixサーバー起動
session = px.launch_app()
print(f"Phoenix UI: {session.url}")
# OpenTelemetryで自動トレース
tracer_provider = register(
project_name="rag-evaluation",
endpoint="http://localhost:4317",
)
LangChainInstrumentor().instrument(tracer_provider=tracer_provider)
# RAG評価(Retrievalの品質チェック)
from phoenix.evals import (
RAG_RELEVANCY_PROMPT_TEMPLATE,
OpenAIModel,
llm_classify,
)
eval_model = OpenAIModel(model="gpt-4o-mini")
# ドキュメントの関連性を評価
relevance_classifications = llm_classify(
dataframe=retrieved_docs_df,
template=RAG_RELEVANCY_PROMPT_TEMPLATE,
model=eval_model,
rails=["relevant", "unrelated"],
)
print(relevance_classifications["label"].value_counts())
向いているケース: RAG品質評価・MLエンジニア・OpenTelemetry標準準拠
Helicone
LLM APIへのプロキシとして動作するオブザーバビリティツール。エンドポイントのURLを変更するだけで既存コードにゼロ変更でトレースを開始できます。
主な特徴:
- プロキシ経由でOpenAI/Anthropic/Gemini等をラップ(コード変更なし)
- リアルタイムのコスト・レイテンシー・エラー率ダッシュボード
- キャッシュ機能でLLMコスト削減(同一プロンプトをキャッシュ)
- レート制限・モデルフォールバックのゲートウェイ機能
# Helicone: URLを変えるだけで統合
from anthropic import Anthropic
# 変更前: client = Anthropic()
# 変更後: ベースURLをHeliconeプロキシに変更するだけ
client = Anthropic(
base_url="https://anthropic.helicone.ai",
default_headers={
"Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
# カスタムプロパティでフィルタリング可能
"Helicone-Property-User-Id": "user_123",
"Helicone-Property-Session": "checkout_flow",
},
)
# 以降は通常通り使うだけ(プロキシが自動でトレース)
response = client.messages.create(
model="claude-haiku-4-5-20251001",
max_tokens=512,
messages=[{"role": "user", "content": "こんにちは"}],
)
# キャッシュ有効化(同一プロンプトの2回目以降はキャッシュ返却)
headers = {
"Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
"Helicone-Cache-Enabled": "true",
"Helicone-Cache-Bucket-Max-Size": "3", # 最大3バリエーション
}
向いているケース: 即時導入・コスト最適化・ゲートウェイ機能・既存コードへの最小変更
選択ガイド
| 状況 | 推奨 |
|---|---|
| プロンプト管理・品質評価ループ | Langfuse |
| RAGのRelevance評価・MLエンジニア | Phoenix |
| 即時導入・コスト削減・ゲートウェイ | Helicone |
内部リンク
外部リソース
FAQ
Q. LangSmith(LangChain公式)と比べてどうですか?
LangSmithはクローズドソースでコストが高めです。Langfuseはオープンソースでセルフホストが可能なため、コスト重視・データプライバシー重視の場合はLangfuseが有利です。
Q. セルフホストと有料クラウドどちらがおすすめですか?
個人・スタートアップは無料クラウド版で始めてOKです。PII(個人情報)を含むプロンプトを扱う場合はセルフホストを検討してください。
Q. トークンコストの計算はどこまで自動ですか?
Langfuse・Heliconeともに主要モデルのトークン単価を内蔵しており、APIレスポンスから自動計算されます。カスタムモデルや新モデルは手動設定が必要です。
Q. 複数のLLMプロバイダーを一元管理したい場合は?
Heliconeはプロキシとして複数プロバイダー(OpenAI・Anthropic・Gemini等)のコストとレイテンシーを統合ダッシュボードで比較できます。