AI 시스템의 문서 이해도 향상을 위한 새로운 접근 방식 등장
기업들은 내부 지식을 활용하기 위해 검색 증강 생성(RAG) 시스템을 점점 더 많이 채택하고 있지만, 복잡한 문서를 정확하게 처리하는 데 어려움이 남아 있습니다. VentureBeat에 따르면 RAG는 "PDF를 색인하고, LLM을 연결하여 기업 지식을 즉시 민주화"할 수 있다고 약속하지만, 복잡한 문서에 의존하는 산업의 현실은 이상적이지 못했습니다.
표준 RAG 파이프라인은 종종 문서를 단순한 텍스트 문자열로 취급하여 "고정 크기 청킹"과 같은 방법을 사용하는데, 이는 테이블을 자르고, 캡션을 끊고, 시각적 계층 구조를 무시하여 기술 매뉴얼의 논리를 방해할 수 있다고 VentureBeat는 보도했습니다. 이는 엔지니어가 특정 질문을 할 때 부정확한 결과를 초래하여 AI가 "환각"을 일으키게 할 수 있습니다.
이러한 제한 사항을 해결하기 위해 새로운 프레임워크가 개발되고 있습니다. VentureBeat에 따르면 PageIndex라는 프레임워크는 문서 검색을 검색 문제가 아닌 탐색 문제로 취급하는 다른 접근 방식을 취합니다. PageIndex는 표준 "청크 앤 임베드" 방식을 완전히 버립니다. 이 프레임워크는 벡터 검색이 실패한 문서에서 98.7%의 정확도를 달성했다고 VentureBeat는 언급했습니다.
개선된 문서 이해에 대한 필요성은 기업이 재무제표 감사, 법률 계약 분석, 제약 프로토콜 탐색과 같은 중요한 워크플로우에서 RAG를 사용하려고 시도함에 따라 특히 두드러집니다. VentureBeat는 실패의 원인이 LLM이 아니라 전처리 과정에 있다고 보도했습니다.
문서 처리 외에도 다른 과학적 발전도 일어나고 있습니다. Ars Technica에 따르면 커피 한 잔이 미량의 환각제보다 더 나은 결과를 가져올 수 있다는 연구 결과와 함께 우울증에 대한 대체 치료법과 같은 분야에서 연구가 계속되고 있습니다. 또한 과학자들은 딱정벌레 및 흰개미와 같은 목재를 갉아먹는 곤충을 방제하기 위한 기존 방법보다 덜 유해한 대안으로 곰팡이를 잠재적인 살충제로 사용하는 것을 탐구하고 있다고 Ars Technica는 보도했습니다.
Discussion
AI 전문가 & 커뮤니티
첫 댓글을 남겨보세요