RAG Document Parser

1. 프로젝트 개요

VLM 기반 PDF 자동 변환 및 구조화 메타데이터 추출 파이프라인

엔터프라이즈 문서(제안요청서·백서·보고서)를 VLM으로 시각 분석하여 고품질 Markdown과 구조화된 메타데이터를 자동 생성하는 온프레미스 파이프라인 LLM 비용 $0의 규칙 기반 메타데이터 추출로 대량 문서 처리를 실현

pypdfium2 Qwen3.5-35B-A3B FastAPI SQLite SSE EasyOCR Docker vLLM

문제: 기존 PDF 변환 도구의 구조 손실 + LLM 비용 폭증 + 1000페이지+ 처리 시 불안정

해결: VLM 기반 시각 분석 + 규칙 기반 메타데이터($0) + 다층 안정 메커니즘 + EasyOCR 크로스 밸리데이션

결과:

항목	상세 내용
진행 기간	2025.12.30 ~ 2026.01
담당 역할	**• System Architect & Lead Developer (1인 전담)
•** VLM 기반 PDF 변환 파이프라인 설계 및 구현
• 규칙 기반 메타데이터 추출 엔진(v3) 설계
• 1000페이지+ 대용량 PDF 안정 처리 메커니즘 구현
• 라이선스 마이그레이션(AGPL → Apache 2.0)
핵심 기술	pypdfium2, Qwen3.5-35B-A3B / Qwen3-VL-32B (vLLM), FastAPI, SQLite, SSE, Docker
주요 성과	• AGPL 의존성 완전 제거 → 상업 사용 가능 라이선스 구성 달성
• 규칙 기반 메타데이터 추출로 청크당 LLM 비용 $0 실현
• 1000페이지+ PDF 처리 시 타임아웃 복구율 98%+ 확보
• 변환일/기관명 오탐 방지로 메타데이터 정확도 v2 대비 향상

기존 단순 PDF 변환 도구의 '구조 손실' 과 'LLM 비용 폭증' 문제 동시 해결 필요

📉 레이아웃 구조 소실 (Layout Fragmentation) 단순 텍스트 추출 방식으로는 다단 컬럼·복잡한 표·조직도 구조가 붕괴되어 RAG 검색 품질 저하
💸 청크당 LLM 호출 비용 (Per-Chunk LLM Cost) 청크마다 LLM을 호출하면 처리 시간 2~3배 증가 및 대량 문서 처리 시 비용 폭증
⚡ 대용량 PDF 처리 불안정 (VRAM Overflow) 1000페이지+ PDF 처리 시 vLLM 메모리 누수·VRAM 과부하로 중단 발생