What is PageIndex?
기존 RAG 시스템은 벡터 검색과 의미론적 유사성에 의존합니다. 하지만 금융, 법률, 의료와 같이 중요한 분야에서는 유사성이 관련성과 항상 직결되지는 않습니다. PageIndex는 추론 기반의 검색 증강 생성(RAG) 시스템으로, 복잡하고 긴 전문 문서에서 벡터를 넘어 인간과 유사한 수준의 정확하고 추적 가능한 정보 검색을 가능하게 합니다.
AlphaGo의 트리 탐색 지능에서 영감을 받아, PageIndex는 문서를 계층적 트리 구조로 변환하고 전문가가 정보를 탐색하는 방식과 같이 다단계 추론을 사용하여 문서를 탐색합니다. 벡터 데이터베이스도, 텍스트 분할도, 무작위적인 Top-K 검색도 없습니다. 오직 정확하고 투명하며 맥락을 온전히 보존하는 결과만을 제공합니다.
재무 보고서, 법률 계약서, 의료 기록, 기술 매뉴얼 등에 완벽하게 적용 가능한 PageIndex는 기업 AI 분야에서 정확성과 신뢰성에 대한 새로운 기준을 제시합니다.
Key Features
🔍 추론 기반 검색
키워드나 임베딩을 일치시키는 대신, PageIndex는 논리적 추론을 통해 다단계 트리 검색을 수행하여 정확히 필요한 정보를 찾아냅니다. 이는 전문가가 정신적 계층 구조를 따라 문서를 탐색하는 방식을 모방한 것으로, 특히 내용이 의미론적으로 유사하지만 맥락적으로는 다른 경우에도 정확도를 크게 향상시킵니다.
📄 분할 없는 완벽한 맥락 보존
임의적인 텍스트 분할은 이제 안녕입니다. PageIndex는 계층적 트리 인덱스를 생성하여 문서의 전체 논리적 구조를 유지합니다. 이는 맥락 단편화를 없애고 섹션 간의 미묘한 관계를 온전히 보존하여 정확한 분석에 결정적인 역할을 합니다.
💾 벡터 데이터베이스 불필요
PageIndex는 벡터 데이터베이스 대신 경량의 JSON 기반 트리 구조를 사용합니다. 이는 인프라 복잡성을 제거하고 지연 시간을 줄이며 비용을 낮추면서도 검색 정확도를 향상시킵니다. 벡터 오버헤드 없이 최대한의 제어권을 확보할 수 있습니다.
🧠 투명하고 추적 가능한 검색 경로
모든 검색 결과에는 시스템이 결과에 도달한 전체 추론 경로가 포함되어 있어, 그 과정을 정확히 보여줍니다. 노드 ID와 정확한 페이지 참조가 함께 제공되므로, 모든 답변을 검증하고 의사결정을 감사할 수 있어, PageIndex는 규제 준수나 민감한 환경에 이상적입니다.
🎯 Top-K 제한 없음 — 모든 관련 콘텐츠 검색
기존 RAG는 얼마나 많은 결과(Top-K)를 검색할지 예측해야 하는 한계가 있습니다. PageIndex는 문서 트리 전체에서 모든 관련 노드를 자동으로 식별하여 예측할 필요 없이 중요한 내용을 놓치지 않도록 보장합니다.
Use Cases
📊 재무 보고서 분석
10-Ks 및 연간 보고서에서 정확한 위험 요소, 수익 요약 또는 규정 준수 공개 내용을 추출합니다. 일반적인 상투적인 문구를 자주 검색하는 벡터 검색과 달리, PageIndex는 언어가 반복되는 경우에도 중대한 위험 또는 재무 예측을 논의하는 정확한 섹션으로 직접 이동합니다.
⚖️ 법률 문서 검토
계약서, 판례법 또는 규제 서류에서 관련 조항을 신속하게 찾아냅니다. PageIndex는 법률 문서의 계층적 논리를 이해하여 수정 사항, 의무 또는 특정 관할권 용어를 전문가 수준의 정확도로 정확히 찾아낼 수 있습니다.
🏥 의료 기록 요약
긴 EHRs에서 특정 환자 이력, 치료 계획 또는 진단 기록을 검색합니다. 구조와 맥락을 보존함으로써 PageIndex는 임상적으로 정확한 검색을 보장하며, 이는 AI 기반 진단 또는 진료 조정에 매우 중요합니다.
작동 방식: PageIndex 파이프라인
📑 PageIndex OCR
PDF를 페이지 전체의 전역 계층 구조(제목, 섹션, 표, 글머리 기호 등)를 유지하며 구조화된 마크다운으로 변환합니다. 긴 컨텍스트 시각-언어 모델을 사용하여 문서 전체를 통합된 구조로 인식합니다.🌲 트리 생성
마크다운으로부터 "목차" 트리를 구축합니다. 각 노드에는 요약, 페이지 참조 및 중첩된 하위 섹션이 포함되어 LLM(대규모 언어 모델)이 바로 사용할 수 있는 탐색 가능한 지식 그래프를 생성합니다.🔎 트리 검색을 통한 정보 검색
쿼리가 주어지면, 시스템은 LLM의 안내를 받아 트리 순회를 수행하며 단계별 추론을 통해 가장 관련성 높은 노드를 찾아냅니다. 내용과 검색 경로를 모두 반환하여, 모든 과정이 완벽하게 설명 가능합니다.
결론:
PageIndex는 문서 인텔리전스의 가능성을 재정의합니다. 취약한 벡터 검색을 추론 기반 검색으로 대체함으로써, 핵심 업무 애플리케이션에 비할 데 없는 정확성, 투명성, 그리고 맥락 충실도를 제공합니다.
길고 복잡하며 특정 도메인에 특화된 문서를 다루고 있고, 신뢰할 수 있는 답변이 필요하다면, PageIndex는 단순한 업그레이드를 넘어선 필수적인 존재입니다.





