AI
unstructuredのロゴ

unstructured

LLM開発ツール
15k

あらゆる文書をLLM用データに変換

Unstructuredは、PDFやWord、HTML、画像など多様な形式の文書をLLMで扱いやすい構造化データに変換するオープンソースのETLライブラリです。文書のレイアウト解析により本文・表・タイトルなどの要素を自動で抽出し、RAGに適したチャンク分割や埋め込み処理までのパイプラインを構築できます。OCR機能を備えているためスキャン文書にも対応し、LangChainやLlamaIndexとの連携も容易です。社内に蓄積された雑多なドキュメントをAIで活用できる形に整えたいデータエンジニアや、RAGシステムの前処理を効率化したい企業に向いています。文書処理はRAGの精度を左右する重要な工程であり、その基盤を担うツールとして広く使われています。Apache-2.0ライセンスです。

関連トピック

data-pipelinesdeep-learningdocument-image-analysisdocument-image-processingdocument-parserdocument-parsingdocxdonutinformation-retrievallangchainllmmachine-learningmlnatural-language-processingnlpocrpdfpdf-to-jsonpdf-to-textpreprocessing

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。