AI

LLMオブザーバビリティ比較:Langfuse vs Phoenix vs Helicone でAIアプリを監視する

オープンソースラボ編集部2026年6月17日

LLMオブザーバビリティ比較:Langfuse vs Phoenix vs Helicone でAIアプリを監視する

🔍 プロダクションのLLMアプリに何が起きているか把握できていますか?Langfuse・Phoenix・Heliconeでトレース・コスト・品質を可視化しましょう。

LLMオブザーバビリティとは

LLMアプリのプロンプト・レスポンス・レイテンシー・コスト・エラーをトレースし、品質問題の検出と改善を行う仕組みです。RAGの検索精度やエージェントの実行ステップも可視化できます。

主要ツール比較表

項目LangfusePhoenix(Arize)Helicone
ライセンスMITApache 2.0Apache 2.0
セルフホスト
クラウド版
トレース
プロンプト管理
評価(LLM-as-Judge)
コスト追跡
RAGトレース◎(Evals特化)
データセット作成
A/Bテスト◎(ゲートウェイ)
OpenTelemetry対応

各ツールの特徴

Langfuse

オープンソースのLLMオブザーバビリティプラットフォームとして最も広く採用されているツール。プロンプト管理・トレース・評価が一体化しています。

主な特徴:

  • 詳細なトレース(トークン数・レイテンシー・コストを階層表示)
  • プロンプトのバージョン管理とA/Bテスト
  • LLM-as-Judgeによる自動品質評価
  • LangChain・LlamaIndex・VercelAI等との1行統合
# Langfuse: Python SDKでトレース
from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from anthropic import Anthropic

langfuse = Langfuse(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
    host="https://cloud.langfuse.com",  # セルフホストも可
)

anthropic_client = Anthropic()

@observe()  # デコレータ1つでトレース開始
def analyze_code(code: str) -> str:
    '''コードを分析してレビューを生成'''
    langfuse_context.update_current_observation(
        input=code,
        metadata={"language": "python"},
    )

    response = anthropic_client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=1024,
        messages=[{"role": "user", "content": f"Review this code:
{code}"}],
    )

    result = response.content[0].text
    langfuse_context.update_current_observation(
        output=result,
        usage={
            "input": response.usage.input_tokens,
            "output": response.usage.output_tokens,
        },
    )
    return result

# スコアによる品質評価
def score_review(trace_id: str, score: float):
    langfuse.score(
        trace_id=trace_id,
        name="review_quality",
        value=score,  # 0.0〜1.0
        comment="人間によるレビュー評価",
    )
# LangChainとの統合(1行追加のみ)
from langfuse.callback import CallbackHandler

handler = CallbackHandler(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
)

chain.invoke({"input": "質問"}, config={"callbacks": [handler]})

向いているケース: プロダクションLLMアプリ・プロンプト管理・品質評価ループ

Phoenix(Arize)

MLエンジニアリングの老舗ArizeのオープンソースLLMデバッグツール。RAGの検索品質評価とデータセット評価に特化した機能が充実しています。

主な特徴:

  • RAGのRelevance・Faithfulness・AnswerRelevanceを自動評価
  • LLMトレースのOpenTelemetry標準準拠
  • Jupyter Notebookから起動できるローカルUIで即座に分析
  • LlamaIndex・LangChain・DSPy等の統合が充実
# Phoenix: RAGパイプラインの評価
import phoenix as px
from phoenix.otel import register
from openinference.instrumentation.langchain import LangChainInstrumentor

# Phoenixサーバー起動
session = px.launch_app()
print(f"Phoenix UI: {session.url}")

# OpenTelemetryで自動トレース
tracer_provider = register(
    project_name="rag-evaluation",
    endpoint="http://localhost:4317",
)
LangChainInstrumentor().instrument(tracer_provider=tracer_provider)

# RAG評価(Retrievalの品質チェック)
from phoenix.evals import (
    RAG_RELEVANCY_PROMPT_TEMPLATE,
    OpenAIModel,
    llm_classify,
)

eval_model = OpenAIModel(model="gpt-4o-mini")

# ドキュメントの関連性を評価
relevance_classifications = llm_classify(
    dataframe=retrieved_docs_df,
    template=RAG_RELEVANCY_PROMPT_TEMPLATE,
    model=eval_model,
    rails=["relevant", "unrelated"],
)

print(relevance_classifications["label"].value_counts())

向いているケース: RAG品質評価・MLエンジニア・OpenTelemetry標準準拠

Helicone

LLM APIへのプロキシとして動作するオブザーバビリティツール。エンドポイントのURLを変更するだけで既存コードにゼロ変更でトレースを開始できます。

主な特徴:

  • プロキシ経由でOpenAI/Anthropic/Gemini等をラップ(コード変更なし)
  • リアルタイムのコスト・レイテンシー・エラー率ダッシュボード
  • キャッシュ機能でLLMコスト削減(同一プロンプトをキャッシュ)
  • レート制限・モデルフォールバックのゲートウェイ機能
# Helicone: URLを変えるだけで統合
from anthropic import Anthropic

# 変更前: client = Anthropic()
# 変更後: ベースURLをHeliconeプロキシに変更するだけ
client = Anthropic(
    base_url="https://anthropic.helicone.ai",
    default_headers={
        "Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
        # カスタムプロパティでフィルタリング可能
        "Helicone-Property-User-Id": "user_123",
        "Helicone-Property-Session": "checkout_flow",
    },
)

# 以降は通常通り使うだけ(プロキシが自動でトレース)
response = client.messages.create(
    model="claude-haiku-4-5-20251001",
    max_tokens=512,
    messages=[{"role": "user", "content": "こんにちは"}],
)
# キャッシュ有効化(同一プロンプトの2回目以降はキャッシュ返却)
headers = {
    "Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
    "Helicone-Cache-Enabled": "true",
    "Helicone-Cache-Bucket-Max-Size": "3",  # 最大3バリエーション
}

向いているケース: 即時導入・コスト最適化・ゲートウェイ機能・既存コードへの最小変更

選択ガイド

状況推奨
プロンプト管理・品質評価ループLangfuse
RAGのRelevance評価・MLエンジニアPhoenix
即時導入・コスト削減・ゲートウェイHelicone

内部リンク

外部リソース

FAQ

Q. LangSmith(LangChain公式)と比べてどうですか?

LangSmithはクローズドソースでコストが高めです。Langfuseはオープンソースでセルフホストが可能なため、コスト重視・データプライバシー重視の場合はLangfuseが有利です。

Q. セルフホストと有料クラウドどちらがおすすめですか?

個人・スタートアップは無料クラウド版で始めてOKです。PII(個人情報)を含むプロンプトを扱う場合はセルフホストを検討してください。

Q. トークンコストの計算はどこまで自動ですか?

Langfuse・Heliconeともに主要モデルのトークン単価を内蔵しており、APIレスポンスから自動計算されます。カスタムモデルや新モデルは手動設定が必要です。

Q. 複数のLLMプロバイダーを一元管理したい場合は?

Heliconeはプロキシとして複数プロバイダー(OpenAI・Anthropic・Gemini等)のコストとレイテンシーを統合ダッシュボードで比較できます。

他の記事も読む

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。