LLMオブザーバビリティ比較：Langfuse vs Phoenix vs Helicone でAIアプリを監視する

🔍 プロダクションのLLMアプリに何が起きているか把握できていますか？Langfuse・Phoenix・Heliconeでトレース・コスト・品質を可視化しましょう。

LLMオブザーバビリティとは

LLMアプリのプロンプト・レスポンス・レイテンシー・コスト・エラーをトレースし、品質問題の検出と改善を行う仕組みです。RAGの検索精度やエージェントの実行ステップも可視化できます。

主要ツール比較表

項目	Langfuse	Phoenix（Arize）	Helicone
ライセンス	MIT	Apache 2.0	Apache 2.0
セルフホスト	◎	◎	◎
クラウド版	◎	◎	◎
トレース	◎	◎	◎
プロンプト管理	◎	△	△
評価（LLM-as-Judge）	◎	◎	△
コスト追跡	◎	○	◎
RAGトレース	◎	◎（Evals特化）	△
データセット作成	◎	◎	△
A/Bテスト	◎	△	◎（ゲートウェイ）
OpenTelemetry対応	◎	◎	○

各ツールの特徴

Langfuse

オープンソースのLLMオブザーバビリティプラットフォームとして最も広く採用されているツール。プロンプト管理・トレース・評価が一体化しています。

主な特徴:

詳細なトレース（トークン数・レイテンシー・コストを階層表示）
プロンプトのバージョン管理とA/Bテスト
LLM-as-Judgeによる自動品質評価
LangChain・LlamaIndex・VercelAI等との1行統合

# Langfuse: Python SDKでトレース
from langfuse import Langfuse
from langfuse.decorators import observe, langfuse_context
from anthropic import Anthropic

langfuse = Langfuse(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
    host="https://cloud.langfuse.com",  # セルフホストも可
)

anthropic_client = Anthropic()

@observe()  # デコレータ1つでトレース開始
def analyze_code(code: str) -> str:
    '''コードを分析してレビューを生成'''
    langfuse_context.update_current_observation(
        input=code,
        metadata={"language": "python"},
    )

    response = anthropic_client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=1024,
        messages=[{"role": "user", "content": f"Review this code:
{code}"}],
    )

    result = response.content[0].text
    langfuse_context.update_current_observation(
        output=result,
        usage={
            "input": response.usage.input_tokens,
            "output": response.usage.output_tokens,
        },
    )
    return result

# スコアによる品質評価
def score_review(trace_id: str, score: float):
    langfuse.score(
        trace_id=trace_id,
        name="review_quality",
        value=score,  # 0.0〜1.0
        comment="人間によるレビュー評価",
    )

# LangChainとの統合（1行追加のみ）
from langfuse.callback import CallbackHandler

handler = CallbackHandler(
    public_key="pk-lf-...",
    secret_key="sk-lf-...",
)

chain.invoke({"input": "質問"}, config={"callbacks": [handler]})

向いているケース: プロダクションLLMアプリ・プロンプト管理・品質評価ループ

Phoenix（Arize）

MLエンジニアリングの老舗ArizeのオープンソースLLMデバッグツール。RAGの検索品質評価とデータセット評価に特化した機能が充実しています。

主な特徴:

RAGのRelevance・Faithfulness・AnswerRelevanceを自動評価
LLMトレースのOpenTelemetry標準準拠
Jupyter Notebookから起動できるローカルUIで即座に分析
LlamaIndex・LangChain・DSPy等の統合が充実

# Phoenix: RAGパイプラインの評価
import phoenix as px
from phoenix.otel import register
from openinference.instrumentation.langchain import LangChainInstrumentor

# Phoenixサーバー起動
session = px.launch_app()
print(f"Phoenix UI: {session.url}")

# OpenTelemetryで自動トレース
tracer_provider = register(
    project_name="rag-evaluation",
    endpoint="http://localhost:4317",
)
LangChainInstrumentor().instrument(tracer_provider=tracer_provider)

# RAG評価（Retrievalの品質チェック）
from phoenix.evals import (
    RAG_RELEVANCY_PROMPT_TEMPLATE,
    OpenAIModel,
    llm_classify,
)

eval_model = OpenAIModel(model="gpt-4o-mini")

# ドキュメントの関連性を評価
relevance_classifications = llm_classify(
    dataframe=retrieved_docs_df,
    template=RAG_RELEVANCY_PROMPT_TEMPLATE,
    model=eval_model,
    rails=["relevant", "unrelated"],
)

print(relevance_classifications["label"].value_counts())

向いているケース: RAG品質評価・MLエンジニア・OpenTelemetry標準準拠

Helicone

LLM APIへのプロキシとして動作するオブザーバビリティツール。エンドポイントのURLを変更するだけで既存コードにゼロ変更でトレースを開始できます。

主な特徴:

プロキシ経由でOpenAI/Anthropic/Gemini等をラップ（コード変更なし）
リアルタイムのコスト・レイテンシー・エラー率ダッシュボード
キャッシュ機能でLLMコスト削減（同一プロンプトをキャッシュ）
レート制限・モデルフォールバックのゲートウェイ機能

# Helicone: URLを変えるだけで統合
from anthropic import Anthropic

# 変更前: client = Anthropic()
# 変更後: ベースURLをHeliconeプロキシに変更するだけ
client = Anthropic(
    base_url="https://anthropic.helicone.ai",
    default_headers={
        "Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
        # カスタムプロパティでフィルタリング可能
        "Helicone-Property-User-Id": "user_123",
        "Helicone-Property-Session": "checkout_flow",
    },
)

# 以降は通常通り使うだけ（プロキシが自動でトレース）
response = client.messages.create(
    model="claude-haiku-4-5-20251001",
    max_tokens=512,
    messages=[{"role": "user", "content": "こんにちは"}],
)

# キャッシュ有効化（同一プロンプトの2回目以降はキャッシュ返却）
headers = {
    "Helicone-Auth": f"Bearer {HELICONE_API_KEY}",
    "Helicone-Cache-Enabled": "true",
    "Helicone-Cache-Bucket-Max-Size": "3",  # 最大3バリエーション
}

向いているケース: 即時導入・コスト最適化・ゲートウェイ機能・既存コードへの最小変更

選択ガイド

状況	推奨
プロンプト管理・品質評価ループ	Langfuse
RAGのRelevance評価・MLエンジニア	Phoenix
即時導入・コスト削減・ゲートウェイ	Helicone

内部リンク

外部リソース

FAQ

Q. LangSmith（LangChain公式）と比べてどうですか？

LangSmithはクローズドソースでコストが高めです。Langfuseはオープンソースでセルフホストが可能なため、コスト重視・データプライバシー重視の場合はLangfuseが有利です。

Q. セルフホストと有料クラウドどちらがおすすめですか？

個人・スタートアップは無料クラウド版で始めてOKです。PII（個人情報）を含むプロンプトを扱う場合はセルフホストを検討してください。

Q. トークンコストの計算はどこまで自動ですか？

Langfuse・Heliconeともに主要モデルのトークン単価を内蔵しており、APIレスポンスから自動計算されます。カスタムモデルや新モデルは手動設定が必要です。

Q. 複数のLLMプロバイダーを一元管理したい場合は？

Heliconeはプロキシとして複数プロバイダー（OpenAI・Anthropic・Gemini等）のコストとレイテンシーを統合ダッシュボードで比較できます。

LLMオブザーバビリティ比較：Langfuse vs Phoenix vs Helicone でAIアプリを監視する

LLMオブザーバビリティ比較：Langfuse vs Phoenix vs Helicone でAIアプリを監視する

LLMオブザーバビリティとは

主要ツール比較表

各ツールの特徴

Langfuse

Phoenix（Arize）

Helicone

選択ガイド

内部リンク

外部リソース

FAQ

Q. LangSmith（LangChain公式）と比べてどうですか？

Q. セルフホストと有料クラウドどちらがおすすめですか？

Q. トークンコストの計算はどこまで自動ですか？

Q. 複数のLLMプロバイダーを一元管理したい場合は？

他の記事も読む

リアルタイム分析比較：Apache Flink vs Spark Streaming vs Materialize でストリームを処理する

ヘッドレスEC比較：Medusa vs Saleor vs Commerce.js でECバックエンドを構築する

SLO管理比較：Pyrra vs Sloth vs OpenSLO でSLI/SLOを自動化する

OSS導入、自社だけで悩まない。