多くの企業が、大規模言語モデル(LLM)のアプリケーションプログラミングインターフェース(API)の利用料金の高騰に直面しており、費用対効果の高いソリューションが求められています。Srinivas Reddy Hulebeedu Reddy氏は、最近の分析で、これらのコストの大部分は、ユーザーが同じ質問を異なる方法で行うことに起因すると指摘しました。
Reddy氏は、トラフィックが同じ割合で増加していないにもかかわらず、同社のLLM API利用料金が月ごとに30%増加していることを確認しました。クエリログを分析した結果、ユーザーが意味的に同一の質問を、さまざまな言い回しでしていることが明らかになりました。たとえば、「返品ポリシーは何ですか?」、「返品するにはどうすればよいですか?」、「払い戻しを受けることはできますか?」などのクエリは、すべてLLMへの個別の呼び出しをトリガーし、それぞれがAPIの全額費用を発生させていました。
クエリテキストをキャッシュキーとして使用する従来の完全一致キャッシュは、この問題に対処するには効果的ではありませんでした。Reddy氏によると、完全一致キャッシュでは、これらの冗長な呼び出しのうち18件しか捕捉できず、わずかな言い回しの違いによってキャッシュが完全にバイパスされていました。
これに対抗するため、Reddy氏はセマンティックキャッシュを実装しました。これは、クエリの正確な文言ではなく、意味に焦点を当てた手法です。このアプローチにより、キャッシュヒット率が67%に向上し、LLM APIのコストが73%削減されました。セマンティックキャッシュは、クエリの根本的な意図を識別し、言い回しが異なっていても、キャッシュから対応する応答を取得します。
LLM APIのコスト上昇は、AIをワークフローに統合する企業にとって、ますます懸念事項となっています。LLMが普及するにつれて、APIの使用状況を最適化することは、コスト効率を維持するために不可欠です。セマンティックキャッシュは有望なソリューションですが、その実装を成功させるには、言語とユーザーの行動のニュアンスを慎重に考慮する必要があります。Reddy氏は、ナイーブな実装では、問題の重要な側面を見逃すことが多いと指摘しました。セマンティックキャッシュ技術のさらなる研究開発は、将来のLLMコスト管理において重要な役割を果たすと予想されます。
Discussion
Join the conversation
Be the first to comment