VLM 기반 PDF 자동 변환 및 구조화 메타데이터 추출 파이프라인
엔터프라이즈 문서(제안요청서·백서·보고서)를 VLM으로 시각 분석하여 고품질 Markdown과 구조화된 메타데이터를 자동 생성하는 온프레미스 파이프라인 LLM 비용 $0의 규칙 기반 메타데이터 추출로 대량 문서 처리를 실현
| 처리 속도 | 메타데이터 비용 | 타임아웃 복구율 | 개발 인원 |
|---|---|---|---|
| 3~5초/페이지 | |||
| 일반 텍스트 기준 | $0 | ||
| 규칙 기반 추출 | 98%+ | ||
| 다층 안정 메커니즘 | 1인 전담 | ||
| 아키텍처~구현 |
pypdfium2 Qwen3.5-35B-A3B FastAPI SQLite SSE EasyOCR Docker vLLM
문제: 기존 PDF 변환 도구의 구조 손실 + LLM 비용 폭증 + 1000페이지+ 처리 시 불안정
해결: VLM 기반 시각 분석 + 규칙 기반 메타데이터($0) + 다층 안정 메커니즘 + EasyOCR 크로스 밸리데이션
결과:
| 항목 | 상세 내용 |
|---|---|
| 진행 기간 | 2025.12.30 ~ 2026.01 |
| 담당 역할 | **• System Architect & Lead Developer (1인 전담) |
| •** VLM 기반 PDF 변환 파이프라인 설계 및 구현 | |
| • 규칙 기반 메타데이터 추출 엔진(v3) 설계 | |
| • 1000페이지+ 대용량 PDF 안정 처리 메커니즘 구현 | |
| • 라이선스 마이그레이션(AGPL → Apache 2.0) | |
| 핵심 기술 | pypdfium2, Qwen3.5-35B-A3B / Qwen3-VL-32B (vLLM), FastAPI, SQLite, SSE, Docker |
| 주요 성과 | • AGPL 의존성 완전 제거 → 상업 사용 가능 라이선스 구성 달성 |
| • 규칙 기반 메타데이터 추출로 청크당 LLM 비용 $0 실현 | |
| • 1000페이지+ PDF 처리 시 타임아웃 복구율 98%+ 확보 | |
| • 변환일/기관명 오탐 방지로 메타데이터 정확도 v2 대비 향상 |
기존 단순 PDF 변환 도구의 '구조 손실' 과 'LLM 비용 폭증' 문제 동시 해결 필요