摘要:Mistral近日发布了其光学字符识别(optical character recognition,OCR)图片来源:Mistral博客 从技术角度看,Mistral OCR 3不仅能够提取文本,还能识别并保留嵌入的图像,同时完整保留原始文档的结构信息。nbsp;原文链接:Mistral Releases OCR 3 With Improved Accuracy on Handwritten and Structured Documents"
Mistral近日发布了其光学字符识别(optical character recognition,OCR)模型的最新版本,Mistral OCR 3",该版本专注于在多种文档类型上实现更高的精度,包括手写笔记、表单、低质量扫描件以及结构复杂的表格。
Mistral近日发布了其光学字符识别(optical character recognition,OCR)模型的最新版本,Mistral OCR 3",该版本专注于在多种文档类型上实现更高的精度,包括手写笔记、表单、低质量扫描件以及结构复杂的表格。
据Mistral表示,OCR 3相较于前一代产品是一次重大的飞跃。在基于真实客户文档工作流的内部评估中,新模型在整体表现上以74%的胜率超越了Mistral OCR 2,尤其在表单、手写内容和含大量表格的文档上优势更为显著。这些基准测试采用模糊匹配(fuzzy-match)指标与人工标注的真实结果进行比对,旨在反映实际业务场景,而非理想化的合成数据。
图片来源:Mistral博客
从技术角度看,Mistral OCR 3不仅能够提取文本,还能识别并保留嵌入的图像,同时完整保留原始文档的结构信息。它的输出格式为Markdown,其中表格通过HTML标签(如rowspan和colspan)重建,使下游系统不仅能获取纯文本,还能保留布局语义。这一特性使其非常适合需要结构化JSON、可搜索档案的管道,或集成到智能体(agentic)和检索增强系统(RAG)中。
在以往通常依赖人工复核的场景中,该模型也展现出显著的进步。它能够高效处理手写内容,包括连笔的笔记和批注。在表单解析方面,对标签、复选框及混合输入项的识别更加准确。此外,OCR 3对扫描档案中常见的倾斜、压缩伪影、低分辨率以及背景噪点等问题具备更强的健壮性。
早期用户特别强调了其性能提升和多语言方面的支持能力。ICT安全负责人兼AI安全专家Patrick Jacobs评论"说:
得益于准确率的大幅提升,Mistral OCR 3的生产部署正在快速扩展。Techseria创始人兼首席顾问Niraj Bhatt分享了"其实际应用的变化:
在定价方面,Mistral OCR 3的标准费率为每1000页2美元;若使用Batch API,成本可降至每1000页1美元,使其成为许多企业级OCR系统的高性价比替代方案。开发者可通过API直接集成模型(标识符为mistral-ocr-2512),非技术用户则可通过拖放式的Document AI Playground界面轻松使用。
对于具有严格数据治理要求的组织,Mistral提供了私有化的部署选项,确保OCR工作负载完全运行在客户可控的基础设施内。
如今,Mistral OCR 3已经可以使用了,并完全向后兼容OCR 2。
原文链接:
Mistral Releases OCR 3 With Improved Accuracy on Handwritten and Structured Documents"