많은 기업들이 대규모 언어 모델(LLM) 애플리케이션 프로그래밍 인터페이스(API) 사용료가 급증하는 것을 경험하면서 비용 효율적인 해결책을 모색하고 있습니다. Srinivas Reddy Hulebeedu Reddy는 최근 분석에서 이러한 비용의 상당 부분이 사용자들이 동일한 질문을 다른 방식으로 묻는 데서 발생한다는 것을 발견했습니다.
Reddy는 트래픽이 같은 비율로 증가하지 않았음에도 불구하고 회사의 LLM API 사용료가 매달 30%씩 증가하는 것을 관찰했습니다. 쿼리 로그를 분석한 결과, 사용자들이 다양한 표현을 사용하여 의미적으로 동일한 질문을 던지고 있었습니다. 예를 들어, "반품 정책이 무엇인가요?", "반품은 어떻게 하나요?", "환불받을 수 있나요?"와 같은 쿼리는 모두 LLM에 대한 별도의 호출을 트리거하여 각각 전체 API 비용이 발생했습니다.
쿼리 텍스트를 캐시 키로 사용하는 기존의 정확히 일치하는 캐싱은 이 문제를 해결하는 데 효과적이지 않았습니다. Reddy는 정확히 일치하는 캐싱이 이러한 중복 호출 중 18개만 포착했으며, 단어의 약간의 변형으로 인해 캐시를 완전히 우회했음을 발견했습니다.
이를 해결하기 위해 Reddy는 쿼리의 정확한 문구보다는 의미에 초점을 맞춘 기술인 시맨틱 캐싱을 구현했습니다. 이 접근 방식은 캐시 적중률을 67%로 높여 LLM API 비용을 73% 절감했습니다. 시맨틱 캐싱은 쿼리의 근본적인 의도를 식별하고 문구가 다르더라도 캐시에서 해당 응답을 검색합니다.
LLM API 비용의 증가는 AI를 워크플로우에 통합하는 기업들에게 점점 더 큰 문제입니다. LLM이 더욱 보편화됨에 따라 API 사용을 최적화하는 것은 비용 효율성을 유지하는 데 매우 중요합니다. 시맨틱 캐싱은 유망한 솔루션을 제시하지만 성공적인 구현을 위해서는 언어와 사용자 행동의 미묘한 차이를 신중하게 고려해야 합니다. Reddy는 순진한 구현은 문제의 핵심적인 측면을 놓치는 경우가 많다고 지적했습니다. 시맨틱 캐싱 기술에 대한 추가 연구 및 개발은 향후 LLM 비용 관리에 중요한 역할을 할 것으로 예상됩니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요