支持详细页面布局和阅读顺序理解、表格结构恢复,元数据提取,支持OCR功能,可用于扫描的PDF

github:https://github.com/DS4SD/docling