PDF処理のオープンソースツール比較【2026年版】生成・編集・OCR・変換
オープンソースラボ編集部 ・ 2026年6月13日
PDFはビジネスの基本フォーマットですが、Adobe Acrobat Pro($23.99/月)に依存しなくてもOSSで大半の操作が実現できます。本記事で用途別のOSSを解説します。
OSS PDF ツール比較表
| 用途 | ツール | ライセンス | 特徴 |
|---|---|---|---|
| PDF生成(HTML→PDF) | wkhtmltopdf / WeasyPrint | LGPL / BSD | HTMLをPDFに変換 |
| PDF生成(プログラム) | ReportLab / fpdf2 | 商用可 | PythonでPDF生成 |
| PDF編集・結合 | Stirling PDF | MIT | WebUIで全操作 |
| PDF閲覧・操作 | PDFium | Apache 2.0 | Chrome内部エンジン |
| OCR(PDF→テキスト) | Tesseract | Apache 2.0 | 業界標準OCR |
| 電子署名 | DocuSeal | AGPL | セルフホスト電子署名 |
Stirling PDF:最強のセルフホストPDF管理ツール
Stirling PDF(公式GitHub↗)はDockerで動くWebベースのPDF全機能ツールです。分割・結合・圧縮・OCR・署名・変換など50種類以上の操作が可能。
# Docker Composeで起動
docker run -d \
-p 8080:8080 \
-v ./trainingData:/usr/share/tessdata \
-e DOCKER_ENABLE_SECURITY=false \
frooodle/s-pdf:latest
Python で PDF を生成する
from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas
def create_pdf(filename: str, content: str):
c = canvas.Canvas(filename, pagesize=A4)
width, height = A4
c.drawString(72, height - 72, content)
c.save()
create_pdf("output.pdf", "Hello, OSS PDF!")
ReportLabの詳細は公式ドキュメント↗を参照。
OCR:Tesseractで画像PDFをテキスト化
import pytesseract
from pdf2image import convert_from_path
pages = convert_from_path('scan.pdf', 300)
for page in pages:
text = pytesseract.image_to_string(page, lang='jpn')
print(text)
Tesseractは100以上の言語に対応し、日本語(jpn)も高精度です。関連OSSはDevOps・miscカテゴリから探せます。また、DevOpsカテゴリのファイル処理ツールも参照してください。
電子署名:DocuSeal
DocuSealはDocuSign代替のセルフホスト電子署名SaaS。DocuSeal公式サイト↗から試せます。無料プランあり、自社データ管理に最適です。
まとめ
- WebUI で全部やりたい → Stirling PDF
- Python でプログラム生成 → ReportLab
- 画像PDF をテキスト化 → Tesseract
- 電子署名 → DocuSeal
よくある質問(FAQ)
Q. Adobe Acrobatと同じことが全部できますか?
Stirling PDFで70%は代替可能です。フォームフィールドの高度な編集・高品質な印刷プリフライトは引き続きAcrobatの優位点です。
Q. 日本語のOCR精度はどうですか?
Tesseract+jpnパッケージで活字印刷物の日本語OCRは90%超の精度が出ます。手書きや複雑なレイアウトはeasyocrやPaddleOCRの方が高精度です。
Q. PDFをWordやExcelに変換できますか?
LibreOfficeのCLI(libreoffice --headless --convert-to docx)でPDF→DOCX変換が可能です。複雑なレイアウトは崩れる場合があります。