Dolphin 是字节跳动(ByteDance)开源的一款多模态、专注于复杂文档解析的多模态 AI 模型
TexTeller 是一个基于 Vision Transformer 的先进模型,用于将图像中的数学公式高精度地转换为 LaTeX 代码。它经过大规模数据集的训练,支持印刷体、扫描、手写以及混合语言的公式识别,并提供命令行和 API 接口,方便用户和开发者使用。
UniMERNet 是 OpenDataLab 开源的一个统一的多模态编码器-解码器网络,旨在通过整合文本和图像信息,为各种文档理解任务提供通用的解决方案。它支持文档布局分析、信息抽取和文档视觉问答等多种应用场景,并具有灵活性和可扩展性。
DocLayout-YOLO 是一个基于 YOLOv5 架构的开源文档布局分析工具包,由 OpenDataLab 开发。它旨在高效准确地检测文档图像中的各种元素,如文本、标题、表格和图像,为文档数字化、信息提取等下游任务提供支持。
Layoutlmv3 是微软 UNILM 项目下的一个先进多模态 Transformer 模型,专为文档理解而设计。它通过统一的文本和图像掩码预训练以及词-图像块对齐等技术,在表单理解、布局分析和视觉问答等文档人工智能任务中取得了领先水平。该模型易于使用,并可通过 Hugging Face Transformers 库进行快速部署和微调。
EasyOCR 是一个基于 Python 的即用型 OCR 库,支持超过 80 种语言和多种书写脚本。它基于 PyTorch 框架,提供了简单易用的 API,能够高效准确地从图像中提取文本,适用于各种 OCR 任务。
Marker 是一款由 VikParuchuri 开发的高精度 PDF 转换工具,可以将 PDF 文档快速转换为 Markdown、JSON 和 HTML 格式。它支持多种文档类型和语言,能够智能地处理复杂的文档结构,并提供 OCR、图像提取和 LLM 增强等功能,是进行文档转换和数字化的强大助手。
Tesseract OCR 是一款由 Google 开源的强大 OCR 引擎,支持超过 100 种语言。它提供了灵活的命令行界面和 API,可以用于将图像中的文本转换为可编辑的文本。虽然用户提供的链接指向 OCRmyPDF,但 Tesseract 是其核心 OCR 引擎,广泛应用于文档数字化、数据提取等领域。
Surya OCR 是一款开源的通用 OCR 引擎,由 VikParuchuri 开发,支持超过 90 种语言。它提供高精度的文本识别、行级文本检测、布局分析、阅读顺序检测、表格识别和 LaTeX OCR 等功能,适用于处理各种文档格式,是进行文档数字化和信息提取的强大工具。
Zerox OCR 指的是 getomni-ai 的 Zerox 自主代理框架中集成的光学字符识别能力。通过 OmniAI 平台的文档提取 API,Zerox 代理能够从各种文档和图像格式中提取文本,并支持结构化数据输出,从而实现自动化文档处理和信息提取等任务,是构建智能自动化工作流程的关键组成部分。
Dolphin 是字节跳动(ByteDance)开源的一款多模态、专注于复杂文档解析的多模态 AI 模型