
MinerU
その他文書をLLM用データに変換する抽出ツール
MinerUは、PDFやOffice文書などの複雑なドキュメントを、LLMで扱いやすいMarkdownやJSONに変換するオープンソースの抽出ツールです。レイアウト解析により本文・見出し・表・数式・画像を識別し、ヘッダーやフッターなどのノイズを除去しながら、読み順を保った構造化データを出力します。数式のLaTeX変換や表のHTML化にも対応し、学術論文の処理に特に強いとされています。OpenDataLab(上海AIラボ)による開発です。RAGシステムやAIエージェントのための文書前処理パイプラインを構築する開発者や、大量のPDF資料をAIナレッジ化したい企業に向いています。商用文書解析APIのセルフホスト代替となります。
関連トピック
ai4sciencedocument-analysisdocxextract-datalayout-analysisocrparserpdfpdf-converterpdf-extractor-llmpdf-extractor-pretrainpdf-extractor-ragpdf-parserpptxpythonxlsx
コメント(0)
コメントするにはログインしてください。





