이 문서는 특허 PDF 원본부터 대시보드 시각화, 그리고 RAG(검색 증강 생성) 확장까지 GST 특허관리시스템이 데이터를 처리하고 서비스를 제공하는 전체 구조를 설명합니다. 프런트엔드, 데이터 파이프라인, 배포 전략, 모니터링 전략을 한눈에 파악할 수 있습니다.
PDF 원본을 파싱해 페이지 텍스트, 이미지 메타, 특허 메타데이터를 추출합니다.
노드 스크립트가 JSON을 정규화하여 `patents-index.json`과 통계 정보를 생성합니다.
Cloudflare Pages가 정적 자산을 전 세계 PoP에 배포하고, 서비스 워커가 캐싱을 담당합니다.
PatentManager가 데이터를 메모리에 적재하고 대시보드, 검색, 시각화를 구동합니다.
특허 PDF 원본을 수집하여 `data/pdf/` 디렉터리에 저장합니다. 수시로 원본이 업데이트되면 동일 디렉터리에 덮어쓰기만 하면 됩니다.
`python3 scripts/update-patents-from-pdf.py` 실행 → PDF를 JSON으로 변환, 페이지 텍스트/이미지/메타데이터 추출, 정상/실패 로그 출력.
`node scripts/build-local-db.js` 실행 → JSON을 통합해 `data/patents-index.json` 생성, 통계/카테고리 분포 계산, 실패 항목을 리포팅.
브라우저가 `data/patents-index.json`을 fetch → PatentManager가 로드 → 검색/필터/차트/타임라인을 실시간으로 갱신합니다.
OpenAI, Claude, Upstage 등 멀티 벤더를 선택적으로 호출할 수 있는 추상화 계층을 제공하며, 토큰/비용 계산 로직을 내장합니다.
특허 문서 서식을 반영한 시스템 프롬프트, 사용자 요청 분류, 하이라이트 추출, 참고 문서 링크 삽입을 지원합니다.
사용 목적 외 질의는 거부하고, 참조 문서를 항상 첨부하도록 가이드합니다. 로깅/감사 기능은 서버 사이드 게이트웨이에서 수행 예정입니다.