0 资料来源

微软开源MarkitDown,RAG文档解析就这么解决了~

MarkItDown试用: https://www.html.zone/markitdown/

github:https://github.com/microsoft/markitdown

下面的测试是:微软MarkitDown 不加载大模型情况下的测试
测试用的: https://www.html.zone/markitdown/

1 word

原始word

在这里插入图片描述
在这里插入图片描述

Markdow

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

预览

在这里插入图片描述

在这里插入图片描述

2 pdf

原始pdf

在这里插入图片描述
在这里插入图片描述

Markdow

在这里插入图片描述

预览

在这里插入图片描述
在这里插入图片描述

3 excel

原始excel

在这里插入图片描述

直接卡在加载中
在这里插入图片描述

4 图片

原始图片

在这里插入图片描述

Markdow

在这里插入图片描述

预览

在这里插入图片描述

总结

  • word效果较好
  • pdf可能乱码多
  • excel无法加载
  • 图片无法识别
Logo

一站式 AI 云服务平台

更多推荐