Dolphin

APPMARK

站内
百度搜索
必应
Google
DuckDuckGo

专用模型

Dolphin 是字节跳动（ByteDance）开源的一款多模态、专注于复杂文档解析的多模态 AI 模型

TexTeller 是一个基于 Vision Transformer 的先进模型，用于将图像中的数学公式高精度地转换为 LaTeX 代码。它经过大规模数据集的训练，支持印刷体、扫描、手写以及混合语言的公式识别，并提供命令行和 API 接口，方便用户和开发者使用。

UniMERNet

UniMERNet 是 OpenDataLab 开源的一个统一的多模态编码器-解码器网络，旨在通过整合文本和图像信息，为各种文档理解任务提供通用的解决方案。它支持文档布局分析、信息抽取和文档视觉问答等多种应用场景，并具有灵活性和可扩展性。

DocLayout-YOLO

DocLayout-YOLO 是一个基于 YOLOv5 架构的开源文档布局分析工具包，由 OpenDataLab 开发。它旨在高效准确地检测文档图像中的各种元素，如文本、标题、表格和图像，为文档数字化、信息提取等下游任务提供支持。

Layoutlmv3

Layoutlmv3 是微软 UNILM 项目下的一个先进多模态 Transformer 模型，专为文档理解而设计。它通过统一的文本和图像掩码预训练以及词-图像块对齐等技术，在表单理解、布局分析和视觉问答等文档人工智能任务中取得了领先水平。该模型易于使用，并可通过 Hugging Face Transformers 库进行快速部署和微调。

EasyOCR

EasyOCR 是一个基于 Python 的即用型 OCR 库，支持超过 80 种语言和多种书写脚本。它基于 PyTorch 框架，提供了简单易用的 API，能够高效准确地从图像中提取文本，适用于各种 OCR 任务。

Marker

Marker 是一款由 VikParuchuri 开发的高精度 PDF 转换工具，可以将 PDF 文档快速转换为 Markdown、JSON 和 HTML 格式。它支持多种文档类型和语言，能够智能地处理复杂的文档结构，并提供 OCR、图像提取和 LLM 增强等功能，是进行文档转换和数字化的强大助手。

Tesseract OCR

Tesseract OCR 是一款由 Google 开源的强大 OCR 引擎，支持超过 100 种语言。它提供了灵活的命令行界面和 API，可以用于将图像中的文本转换为可编辑的文本。虽然用户提供的链接指向 OCRmyPDF，但 Tesseract 是其核心 OCR 引擎，广泛应用于文档数字化、数据提取等领域。

Surya

Surya OCR 是一款开源的通用 OCR 引擎，由 VikParuchuri 开发，支持超过 90 种语言。它提供高精度的文本识别、行级文本检测、布局分析、阅读顺序检测、表格识别和 LaTeX OCR 等功能，适用于处理各种文档格式，是进行文档数字化和信息提取的强大工具。

Zerox OCR

Zerox OCR 指的是 getomni-ai 的 Zerox 自主代理框架中集成的光学字符识别能力。通过 OmniAI 平台的文档提取 API，Zerox 代理能够从各种文档和图像格式中提取文本，并支持结构化数据输出，从而实现自动化文档处理和信息提取等任务，是构建智能自动化工作流程的关键组成部分。

1 2 3

APPMARK 是快速找到最新 AI（Artificial Intelligence, 人工智能）应用的一站式导航平台，我们按照模型平台、提示词、写作、办公、对话聊天、图像、视频、设计、语音、编程、开发平台、法律助手、学习资源等进行分类导航和索引，并保持更新，最短时间内找到需要的AI应用。

博客文章 !
隐私政策 !
收藏本站 !

您可以通过以下方式联系我们