文档提取神器
文档提取神器

文档提取神器最新版

官方版无广告68,325

更新日期:
2025年10月27日
语言:
中文
平台:
没限制

10035 人已下载 手机查看

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF

 pdf_zh_cn.mp4 

主要功能

 

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容Windows、Linux和Mac平台

相关软件

PDFgear_免费的PDF编辑器

PDFgear_免费的PDF编辑器 - 最新版

PDFgear这是一款完全免费的PDF编辑器,界面干净简洁,还没广告打扰!除了可以对PDF里的文字、图片进行修改,在工具栏还提供了PDF转word功能,甚至还能调用OCR识别 ,图片上的文字都能提取出来。 PDFgear可以直接在PDF文档中进行文字、图片和链接的编辑、插入、删除和移动,轻松修改文档内容,保留原始格式。修改PDF文件时,只用点击编辑——编辑文字,就可以进入编辑状态,修改的内容还可以保证字体一致。 还提供PDF与其他格式(如Word、Excel、图片、网页等)的相互转换功能,满足用户多样化的需求。

暂无评论

none
暂无评论...