MarkItDown 是微軟開源的 Python 工具,能將 PDF、Word、Excel、PowerPoint、圖片、音訊、HTML 等超過 29 種格式轉換成 Markdown。對於需要建立 RAG 知識庫、餵資料給 LLM 分析、或是批次處理大量文件的開發者來說,MarkItDown 提供了簡單的 CLI 與 Python API,幾行程式碼就能完成轉換,還支援 OCR 與語音轉文字等進階功能。
程式筆記、開發心得、個人部落格
MarkItDown 是微軟開源的 Python 工具,能將 PDF、Word、Excel、PowerPoint、圖片、音訊、HTML 等超過 29 種格式轉換成 Markdown。對於需要建立 RAG 知識庫、餵資料給 LLM 分析、或是批次處理大量文件的開發者來說,MarkItDown 提供了簡單的 CLI 與 Python API,幾行程式碼就能完成轉換,還支援 OCR 與語音轉文字等進階功能。