RAG 개발 1편 - 문서 수집과 데이터 정제 파이프라인 설계
RAG 품질의 출발점은 모델이 아니라 데이터입니다. 어떤 문서를 수집해야 하는지, HTML/PDF/위키 데이터를 어떻게 정제하고 메타데이터를 붙여야 하는지, 실무용 수집 파이프라인 관점에서 설명합니다.
RAG 품질의 출발점은 모델이 아니라 데이터입니다. 어떤 문서를 수집해야 하는지, HTML/PDF/위키 데이터를 어떻게 정제하고 메타데이터를 붙여야 하는지, 실무용 수집 파이프라인 관점에서 설명합니다.
주식 투자 Agent의 핵심은 최신 문맥입니다. 시세, 뉴스, SEC 공시, 실적 발표 transcript를 어떻게 수집하고 정규화하며, 종목 중심 RAG 검색이 가능하도록 적재할지 데이터 파이프라인 관점에서 설명합니다.