大規模言語モデル(LLM)のAPIコストは、セマンティックキャッシュを実装することで大幅に削減できる可能性があると、Sreenivasa Reddy Hulebeedu Reddy氏は述べています。同氏によれば、同社のLLM APIの請求額は、トラフィックが同じ割合で増加していないにもかかわらず、毎月30%ずつ増加していました。Reddy氏は、ユーザーが同じ質問を異なる方法で尋ねているため、LLMへの冗長な呼び出しが発生し、不必要なAPIコストが発生していることを発見しました。
Reddy氏がクエリログを分析した結果、ユーザーが同じ質問を頻繁に言い換えていることが明らかになりました。たとえば、「返品ポリシーは何ですか?」、「返品方法を教えてください?」、「払い戻しは可能ですか?」といったクエリは、すべてLLMからほぼ同じ回答を引き出しますが、各クエリは個別に処理され、全額APIコストが発生していました。
クエリテキストをキャッシュキーとして使用する従来の完全一致キャッシュは、この問題に対処するには効果的ではありませんでした。「完全一致キャッシュでは、これらの冗長な呼び出しのわずか18%しか捕捉できませんでした」とReddy氏は述べています。「同じ意味の質問でも、言い回しが異なると、キャッシュを完全にバイパスしてしまいます。」
この制限を克服するために、Reddy氏はセマンティックキャッシュを実装しました。これは、クエリの正確な文言ではなく、意味に焦点を当てたものです。このアプローチにより、キャッシュヒット率が67%に向上し、LLM APIコストが73%削減されました。セマンティックキャッシュは、類似した意味を持つクエリを識別し、キャッシュから対応する応答を取得することで、LLMへの冗長な呼び出しを回避します。
この開発は、ユーザーの行動を理解し、LLM APIコストを効果的に管理するためにキャッシュ戦略を最適化することの重要性を強調しています。LLMがさまざまなアプリケーションにますます統合されるにつれて、セマンティックキャッシュは、サービスの品質を損なうことなく費用を削減しようとしている組織にとって、貴重なソリューションとなります。
Discussion
Join the conversation
Be the first to comment