TexTeller
专用模型

TexTeller

TexTeller 是一个基于 Vision Transformer 的先进模型,用于将图像中的数学公式高精度地转换为 LaTeX 代码。它经过大规模数据集的训练,支持印刷体、扫描、手写以及混合语言的公式识别,并提供命令行和 API 接口,方便用户和开发者使用。

快点收藏起来

什么是 TexTeller

TexTeller 是一个基于深度学习的先进工具,由 OleehyO 开发,主要用于将图像中复杂的数学公式转换为 LaTeX 格式。它利用 Vision Transformer (ViT) 模型,特别是 TrOCR 的架构作为基础,并经过大规模图像-公式对数据集的训练,实现了比以往的工具(如 LaTeX-OCR)更高的准确性和更强的泛化能力。TexTeller 的目标是简化数学公式的数字化过程,为科研人员、教师、学生以及需要处理数学文档的专业人士提供一个高效、可靠的解决方案。

textteller

TexTeller 的功能

TexTeller 具备以下一系列强大的功能,使其在数学公式识别领域脱颖而出:

  • 高精度 LaTeX 公式识别: TexTeller 经过大量数据的训练(最新的 TexTeller 3.0 使用了 8000 万图像-公式对),能够准确地识别各种复杂的数学公式,包括单行、多行、矩阵以及包含特殊符号的公式。
  • 卓越的泛化能力: 相较于使用较小数据集训练的模型,TexTeller 在面对不同来源、不同排版风格的公式图像时,展现出更强的鲁棒性和准确性。
  • 支持多种公式类型: TexTeller 不仅能识别印刷体的数学公式,最新的 3.0 版本还声称支持扫描图像和手写公式的识别,极大地扩展了其应用场景。
  • 混合语言公式支持: TexTeller 3.0 引入了对英文和中文混合公式的识别能力,这对于处理包含中英文注释的数学文档尤其有用。
  • 印刷体文本的 OCR 能力: 除了数学公式,TexTeller 3.0 还具备对印刷体英文和中文文本的光学字符识别(OCR)能力。
  • 段落识别: TexTeller 支持对包含多个公式或文本段落的图像进行识别,并按顺序输出结果。
  • 公式检测模型: TexTeller 提供了一个独立的公式检测模型,可以先在图像中定位公式区域,然后再进行识别,这对于包含大量文本和公式的文档非常有用。
  • API 接口: TexTeller 提供了 API 使用方式,方便开发者将其集成到自己的应用程序或服务中,支持通过 HTTP 请求进行公式识别。
  • GPU 加速推理: TexTeller 支持在 GPU 上进行推理,可以显著提高处理速度,尤其是在处理大量图像时。
  • ONNX Runtime 支持: TexTeller 还支持使用 ONNX Runtime 进行推理,这有助于在不同的硬件平台上实现更高效的部署。

如何使用/快速开始

要开始使用 TexTeller,请按照以下步骤进行操作:

  1. 安装 TexTeller: 您可以通过 pip 包管理器轻松安装 TexTeller:
    pip install texteller
  2. 运行推理: 安装完成后,进入 src/ 目录,并在终端中运行以下命令进行推理:
    python inference.py -img "/path/to/image.{jpg,png}"

    "/path/to/image.{jpg,png}" 替换为您想要识别的图像文件的实际路径。

  3. 使用 GPU 进行推理(可选): 如果您的系统支持 CUDA 或 MPS,您可以使用 --inference-mode 选项来启用 GPU 加速:
    python inference.py -img "img.jpg" --inference-mode cuda
  4. 首次运行: 首次运行推理命令时,TexTeller 会自动从 Hugging Face 下载所需的预训练模型权重文件。
  5. API 使用: 您还可以将 TexTeller 部署为 API 服务。运行以下命令启动 API 服务:
    python api.py

    默认情况下,服务将在 8000 端口运行。您可以通过 HTTP POST 请求将图像发送到服务器进行识别。

  6. API 参数: API 提供了多种参数来控制识别过程,例如 ckpt(模型权重文件路径)、tknz(tokenizer 路径)、port(服务端口)、--inference-mode(推理模式)、--num_beams(beam search 的 beams 数量)等。您可以参考 GitHub 仓库中的文档获取更详细的参数说明。
  7. 段落识别: TexTeller 支持段落识别。您可以尝试使用包含多个公式或文本段落的图像进行测试。
  8. 公式检测模型: 如果您需要先检测图像中的公式区域,可以查找仓库中提供的关于公式检测模型的使用说明。

请务必查阅 TexTeller 的 GitHub 仓库 以获取更详细的安装说明、API 文档、示例代码以及关于训练自定义模型的信息。由于 TexTeller 仍在积极开发中,建议关注其更新日志以获取最新的功能和改进。

相关导航