AI 애플리케이션 개발자인 Sreenivasa Reddy Hulebeedu Reddy에 따르면 많은 기업들이 대규모 언어 모델(LLM) 애플리케이션 프로그래밍 인터페이스(API) 비용이 폭증하는 것을 목격하고 있으며, 이는 사용자들이 동일한 질문을 다른 방식으로 하기 때문이라고 합니다. Reddy는 사용자들이 동일한 질문을 자주 바꿔서 LLM에 대한 중복 호출을 발생시키고 불필요한 API 비용을 발생시킨다는 것을 발견했습니다.
Reddy의 쿼리 로그 분석 결과, 사용자들이 "반품 정책이 무엇인가요?", "반품은 어떻게 하나요?", "환불받을 수 있나요?"와 같은 질문을 각각 별도로 하여 거의 동일한 응답을 생성하고 전체 API 비용을 발생시키는 것으로 나타났습니다. 쿼리 텍스트를 캐시 키로 사용하는 기존의 정확히 일치하는 캐싱은 이러한 중복 호출의 18%만 잡아내는 데 그쳐 비효율적인 것으로 드러났습니다. Reddy는 "동일한 의미의 질문이 다르게 표현되면 캐시를 완전히 우회합니다."라고 설명했습니다.
이 문제를 해결하기 위해 Reddy는 쿼리의 정확한 표현보다는 의미에 초점을 맞추는 기술인 시맨틱 캐싱을 구현했습니다. 시맨틱 캐싱은 질문의 근본적인 의도를 분석하고 의미적으로 유사한 쿼리가 이미 처리된 경우 캐시에서 답변을 검색합니다. 시맨틱 캐싱을 구현한 후 Reddy는 캐시 적중률이 67%로 증가하여 LLM API 비용이 73% 절감되었다고 보고했습니다.
기존 캐싱의 핵심 과제는 정확한 일치에 대한 의존성에 있습니다. Reddy가 설명했듯이 기존 캐싱은 쿼리 텍스트의 해시를 캐시 키로 사용합니다. 캐시에 키가 존재하면 캐시된 응답이 반환되고, 그렇지 않으면 쿼리가 LLM에 의해 처리됩니다. 이 접근 방식은 사용자가 근본적인 의미가 동일하더라도 질문을 다르게 표현할 때 실패합니다.
시맨틱 캐싱은 LLM API 사용을 최적화하는 데 있어 중요한 발전입니다. 쿼리의 의미적 의미를 이해함으로써 중복 호출을 획기적으로 줄이고 비용을 절감할 수 있습니다. 그러나 시맨틱 캐싱을 효과적으로 구현하려면 의미 유사성 알고리즘 선택 및 캐시 무효화 관리 등 다양한 요소를 신중하게 고려해야 합니다. 이러한 개발은 단순한 텍스트 기반 캐싱 솔루션에서 벗어나 인간 언어의 뉘앙스를 이해하는 보다 정교한 방법으로 나아가는 것의 중요성을 강조합니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요