커피가 미세 투약보다 낫다, 치명적인 곰팡이의 위협, 그리고 RAG 시스템의 실패

기업들이 복잡한 문서 처리 시 RAG 시스템의 한계에 직면

기업들은 대규모 언어 모델(LLM)과 내부 데이터를 활용하기 위해 검색 증강 생성(RAG) 시스템을 점점 더 많이 도입하고 있지만, VentureBeat에 따르면 많은 기업들이 이러한 시스템이 정교한 문서를 처리하는 데 어려움을 겪고 있다는 것을 발견하고 있습니다. 문제는 주로 전처리 단계에 있는데, 표준 RAG 파이프라인이 문서를 평면적인 텍스트 문자열로 취급하여 중요한 정보 손실을 초래하는 경우가 많습니다.

RAG 시스템은 LLM이 독점적인 데이터를 기반으로 작동하도록 하여 기업이 워크플로우를 자동화하고, 의사 결정을 지원하며, 반자동으로 운영할 수 있도록 하는 것을 목표로 합니다. 그러나 VentureBeat는 문서를 임의의 세그먼트로 자르는 "고정 크기 청킹"에 대한 의존도가 기술 매뉴얼 및 기타 복잡한 문서를 처리할 때 해로울 수 있다고 보도했습니다. 이 방법은 이미지에서 캡션을 분리하고, 테이블을 반으로 자르고, 페이지의 시각적 계층 구조를 무시합니다.

VentureBeat에 따르면 실패 원인은 LLM 자체가 아니라 문서가 분석을 위해 준비되는 방식에 있습니다. Dippu Kumar Singh은 VentureBeat에 PDF를 색인하고 기업 지식을 즉시 민주화하겠다는 약속이 중공업에 의존하는 산업에서는 기대에 미치지 못했다고 썼습니다. 인프라에 대한 특정 질문을 하는 엔지니어들은 봇이 엉뚱한 답변을 내놓는다는 것을 발견했습니다.

Varun Raj는 VentureBeat에 검색 실패가 AI 시스템이 배포되면 비즈니스 위험으로 직접 전파된다고 썼습니다. Raj는 오래된 컨텍스트, 관리되지 않는 액세스 경로 및 제대로 평가되지 않은 검색 파이프라인이 신뢰, 규정 준수 및 운영 안정성을 저해할 수 있다고 덧붙였습니다. 그는 검색을 애플리케이션 로직이 아닌 인프라로 재구성합니다.

현재 RAG 시스템의 한계는 복잡한 문서의 구조와 컨텍스트를 보존할 수 있는 보다 정교한 전처리 기술의 필요성을 강조합니다. RAG 안정성을 개선하는 것은 LLM을 조정하는 것이 아니라 시스템이 처리하는 문서를 이해하도록 하는 것입니다.