Chandra：面向复杂文档的多语种布局感知OCR与结构化输出

Chandra是一个面向复杂文档的OCR与结构化抽取平台，强调多语种支持、版式保留及表格/数学识别，适合需要高质量文档数字化与结构化输出的企业或研究团队。

GitHub datalab-to/chandra 更新 2026-03-27 分支 main 星标 6.1K 分叉 674

OCR 文档智能多语种布局保留表格/数学识别 vLLM/HuggingFace CLI/Streamlit PDF处理 Apache-2.0（代码） OpenRAIL-M（模型）

💡 深度解析

在大批量文档处理时应如何设计流水线以避免 OOM、截断与性能退化？

核心分析 ¶

项目定位：Chandra 提供批量与分页参数，但大规模稳定运行依赖于合理的流水线设计和资源管控。

分片与分页：利用 --page-range 与对高分辨率图像的区域分割，避免单次输入过大导致 OOM。
批次与并发控制：根据 GPU 显存调整 --batch-size 与 --max-workers（vLLM 推荐较大 batch），同时设置 --max-output-tokens 避免生成爆发性输出。
前处理与后处理：增加去噪、deskew 与压缩步骤；后处理保留裁剪图像用于人工复核。

重要提示：不要盲目增大 batch-size 以追求吞吐，先在目标硬件做基准测试并用 metadata 指标进行动态调整。

总结：预处理+分片+批次/并发控制+metadata 驱动监控与重试，是避免 OOM 和保持稳定性能的关键实践。

89.0%

Chandra 的技术架构如何支持高保真布局感知与表格/公式重建？

项目定位：Chandra 把页面作为带布局信息的输入，训练模型直接输出结构化标记，从而在表格/公式/复杂排版重建上比传统分步 OCR 更鲁棒。

重要提示：端到端方法能提升复杂布局的重建能力，但在极端破损或透印场景仍需人工复核或二次处理。

总结：架构上，Chandra 将布局纳入模型生成流程并通过可切换后端与 metadata 支撑生产化，是其在复杂文档重建上的核心优势。

88.0%

在生产部署时该如何在 vLLM（Docker）与 HuggingFace（本地）之间选择与优化？

项目定位：vLLM（Docker）为生产化、规模化处理设计；HuggingFace（本地）适合研发、微调或低吞吐离线场景。

vLLM（生产优先）：统一镜像、GPU 管理、可横向扩展，默认 batch-size 较大（README 示例：28），适合批处理与低延迟服务化。
HuggingFace（研发优先）：灵活微调、无需容器化基础设施，但受显存与本地依赖（torch、flash attention）限制，默认 batch-size 较小。

生产部署：采用 chandra_vllm Docker 容器，配置 VLLM_MODEL_NAME、合理设置 --max-workers 与 --batch-size，并使用 _metadata.json 做监控与成本归因。
研发/验证：用 --method hf 在小样本上快速验证输出质量，再决定是否切换到 vLLM。
性能调优清单：调整 batch-size、max-output-tokens、并发 worker；对超大文档做分页/分片。