Sreenivasa Reddy Hulebeedu Reddy에 따르면, 대규모 언어 모델(LLM) API 비용은 시맨틱 캐싱을 구현함으로써 크게 절감될 수 있습니다. 그는 회사의 LLM API 비용이 트래픽 증가율과 동일하지 않음에도 불구하고 매달 30%씩 증가하고 있다는 사실을 발견했습니다. Reddy는 사용자들이 동일한 질문을 다른 방식으로 함으로써 LLM에 대한 중복 호출이 발생하고 불필요한 API 비용이 발생한다는 것을 알게 되었습니다.
Reddy의 쿼리 로그 분석 결과, 사용자들이 동일한 질문을 자주 바꿔서 표현한다는 사실이 밝혀졌습니다. 예를 들어, "반품 정책이 무엇인가요?", "반품은 어떻게 하나요?", "환불받을 수 있나요?"와 같은 쿼리는 모두 LLM으로부터 거의 동일한 응답을 얻었지만, 각 쿼리는 별도로 처리되어 전체 API 비용이 발생했습니다.
쿼리 텍스트를 캐시 키로 사용하는 기존의 정확히 일치하는 캐싱은 이 문제를 해결하는 데 효과적이지 않았습니다. Reddy는 "정확히 일치하는 캐싱은 이러한 중복 호출의 18%만 포착했습니다."라고 말했습니다. "동일한 의미의 질문이라도 다르게 표현되면 캐시를 완전히 우회했습니다."
이러한 한계를 극복하기 위해 Reddy는 정확한 문구보다는 쿼리의 의미에 초점을 맞춘 시맨틱 캐싱을 구현했습니다. 이 접근 방식은 캐시 적중률을 67%로 높여 LLM API 비용을 73% 절감하는 결과를 가져왔습니다. 시맨틱 캐싱은 유사한 의미를 가진 쿼리를 식별하고 캐시에서 해당 응답을 검색하여 LLM에 대한 중복 호출을 방지합니다.
이 개발은 사용자 행동을 이해하고 LLM API 비용을 효과적으로 관리하기 위해 캐싱 전략을 최적화하는 것이 중요하다는 점을 강조합니다. LLM이 다양한 애플리케이션에 점점 더 많이 통합됨에 따라 시맨틱 캐싱은 서비스 품질을 저하시키지 않으면서 비용을 절감하려는 조직에게 유용한 솔루션을 제공합니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요