olmOCR 是由艾伦人工智能研究所(AI2)开发的开源 Python 工具包,旨在高效、准确地将 PDF 文件和文档图像转换为结构化的纯文本,并保留原始文档的逻辑阅读顺序。它利用先进的视觉语言模型和文档锚定技术,在处理复杂文档时表现出色,并具有高精度、高效率和成本效益等优点。
GOT-OCR 2.0 (General OCR Theory 2.0) 是一种先进的开源 OCR 模型,能够以端到端的方式识别和理解包括文本、公式、表格和图表等多种视觉语言。它在多个 OCR 基准测试中表现出色,并支持多种输入和输出格式,适用于处理各种复杂的 OCR 任务。
PaddleOCR 是由百度飞桨开发的开源 OCR 系统,提供了一整套用于文本检测、文本识别、文档分析和关键信息提取的工具和模型,支持多语言,并具有易用、高效、可部署等特点,旨在帮助用户更好地进行光学字符识别任务。
子曰翻译模型是由网易有道推出的专用小模型,子曰翻译模型 2.0 拥有 14B 参数,测试达行业第一,翻译质量超越国内外主流通用大模型。
Mistral OCR 是由法国 Mistral 发布的“顶级基准” OCR 模型,官方测试结果来看领先于其他所有 OCR 专用模型。
ChatLaw 是一款针对中文法律领域的大型语言模型,它通过定制化的设计和智能分析功能,为法律专业人士提供了一个强大的工具。
Goedel-Prover(哥德尔证明器)是普林斯顿大学、清华大学、清华大学等机构推出一个专门设计用于自动化定理证明的大型语言模型。
NuminaMath 是一系列经过训练的语言模型,它们使用工具集成推理 (TIR) 来解决数学问题。
MathΣtral 是 Mistral 基于 Mistral 7B 开发并推出的专注于数学推理的模型,拥有 32k 的上下文窗口,发布于 Apache 2.0 许可下。
Google Research & DeepMind 推出的 Google Med-PaLM 2 基于PaLM大模型,是专为医疗问答优化的AI模型。在医学考试问题(如USMLE)中达到专家级准确率,支持多语言医疗信息检索与分析。
olmOCR 是由艾伦人工智能研究所(AI2)开发的开源 Python 工具包,旨在高效、准确地将 PDF 文件和文档图像转换为结构化的纯文本,并保留原始文档的逻辑阅读顺序。它利用先进的视觉语言模型和文档锚定技术,在处理复杂文档时表现出色,并具有高精度、高效率和成本效益等优点。