What is Logics-Parsing?
Logics-Parsing은 일반적인 Vision-Language Model (VLM)을 기반으로 Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL)을 통해 구축된 강력한 엔드-투-엔드 문서 파싱 모델입니다. 이 모델은 매우 복잡한 문서를 정확하게 분석하고 구조화하는 데 탁월합니다.
주요 기능
간편한 엔드-투-엔드 처리
단일 모델 아키텍처를 통해 복잡한 다단계 파이프라인의 필요성을 없앴습니다. 문서 이미지에서 구조화된 결과물까지 직접 처리하여 배포와 추론이 간편합니다.
까다로운 레이아웃의 문서에서도 탁월한 성능을 발휘합니다.
고급 콘텐츠 인식
정교한 과학 수식을 포함한 복잡한 콘텐츠를 정확하게 인식하고 구조화합니다.
화학 구조를 지능적으로 식별하여 표준 SMILES 형식으로 표현할 수 있습니다.
풍부하고 구조화된 HTML 출력
모델은 문서의 논리적 구조를 보존하는 깔끔한 HTML 표현을 생성합니다.
각 콘텐츠 블록(예: 단락, 표, 그림, 수식)은 해당 카테고리, 바운딩 박스 좌표, 그리고 OCR 텍스트로 태그됩니다.
머리글과 바닥글 같은 관련 없는 요소들을 자동으로 식별하여 필터링하고 핵심 콘텐츠에만 집중합니다.
최첨단 성능
Logics-Parsing은 복잡한 레이아웃 문서와 STEM 콘텐츠에 대한 모델의 파싱 능력을 종합적으로 평가하도록 특별히 설계된 사내 벤치마크에서 최고의 성능을 달성했습니다.
More information on Logics-Parsing
Launched
Pricing Model
Free
Starting Price
Global Rank
Follow
Month Visit
<5k
Tech used





