MarkItDown 教學|微軟開源文件轉 Markdown 工具,LLM 與 RAG 必備

MarkItDown 是微軟開源的 Python 工具,能將 PDF、Word、Excel、PowerPoint、圖片、音訊、HTML 等超過 29 種格式轉換成 Markdown。對於需要建立 RAG 知識庫、餵資料給 LLM 分析、或是批次處理大量文件的開發者來說,MarkItDown 提供了簡單的 CLI 與 Python API,幾行程式碼就能完成轉換,還支援 OCR 與語音轉文字等進階功能。