LLM 비용 급증? 시맨틱 캐시로 청구액 73% 절감

AI Insights

2 min

Byte_BearAI

4h ago

AI Insights

Views

Likes

Min Read

Sources

Sreenivasa Reddy Hulebeedu Reddy에 따르면, 대규모 언어 모델(LLM) API 비용은 시맨틱 캐싱을 구현함으로써 크게 절감될 수 있습니다. 그는 회사의 LLM API 비용이 트래픽 증가율과 동일하지 않음에도 불구하고 매달 30%씩 증가하고 있다는 사실을 발견했습니다. Reddy는 사용자들이 동일한 질문을 다른 방식으로 함으로써 LLM에 대한 중복 호출이 발생하고 불필요한 API 비용이 발생한다는 것을 알게 되었습니다.

Reddy의 쿼리 로그 분석 결과, 사용자들이 동일한 질문을 자주 바꿔서 표현한다는 사실이 밝혀졌습니다. 예를 들어, "반품 정책이 무엇인가요?", "반품은 어떻게 하나요?", "환불받을 수 있나요?"와 같은 쿼리는 모두 LLM으로부터 거의 동일한 응답을 얻었지만, 각 쿼리는 별도로 처리되어 전체 API 비용이 발생했습니다.

쿼리 텍스트를 캐시 키로 사용하는 기존의 정확히 일치하는 캐싱은 이 문제를 해결하는 데 효과적이지 않았습니다. Reddy는 "정확히 일치하는 캐싱은 이러한 중복 호출의 18%만 포착했습니다."라고 말했습니다. "동일한 의미의 질문이라도 다르게 표현되면 캐시를 완전히 우회했습니다."

이러한 한계를 극복하기 위해 Reddy는 정확한 문구보다는 쿼리의 의미에 초점을 맞춘 시맨틱 캐싱을 구현했습니다. 이 접근 방식은 캐시 적중률을 67%로 높여 LLM API 비용을 73% 절감하는 결과를 가져왔습니다. 시맨틱 캐싱은 유사한 의미를 가진 쿼리를 식별하고 캐시에서 해당 응답을 검색하여 LLM에 대한 중복 호출을 방지합니다.

이 개발은 사용자 행동을 이해하고 LLM API 비용을 효과적으로 관리하기 위해 캐싱 전략을 최적화하는 것이 중요하다는 점을 강조합니다. LLM이 다양한 애플리케이션에 점점 더 많이 통합됨에 따라 시맨틱 캐싱은 서비스 품질을 저하시키지 않으면서 비용을 절감하려는 조직에게 유용한 솔루션을 제공합니다.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

AI 심층 분석

Discussion

대화에 참여하세요

댓글을 남기려면 로그인하세요

첫 댓글을 남겨보세요

더 많은 이야기

Atonemo의 100달러 스트림플레이어로 오래된 스피커에 새 생명을 불어넣으세요

100달러 미만의 가격으로 판매되는 Atonemo의 Streamplayer는 AirPlay 2 및 Chromecast와 같은 최신 스트리밍 기능을 구형 스피커에 추가하여 기존 오디오 시스템을 오늘날의 연결된 생태계에 통합할 수 있는 비용 효율적인 방법을 제공하는 소형 장치입니다. 이러한 혁신은 AI 및 스트리밍 기술이 Hi-Fi 산업을 어떻게 재편하고 있는지 보여주며, 기존 오디오 장비의 품질을 희생하지 않고도 편리함을 제공합니다. 단, 사용자는 추가 케이블이 필요할 수 있습니다.

Cyber_Cat

Cyber_Cat•

3 min

AI Insights4h ago

스마트 테이블탑에서 즐기는 보드 게임과 디지털 게임의 융합

Board는 24인치 터치스크린 태블릿과 실물 게임 조각을 결합하여 대면 사회적 상호 작용을 촉진하는 새로운 테이블탑 게임 방식을 제시합니다. 다양한 출시 타이틀과 구독료가 없다는 점은 매력적이지만, 700달러라는 높은 가격과 제한적인 게임 가용성은 장기적인 가치와 진화하는 디지털 및 물리적 엔터테인먼트 환경에 미치는 잠재적 영향에 대한 의문을 제기합니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights4h ago

AI 기반 보드워크: 유레보 워킹 패드, 현실을 흐릿하게 하다

Urevo의 SpaceWalk 5L 워킹 패드는 TV 시청이나 스탠딩 데스크 작업과 같은 앉아서 하는 활동에 움직임을 통합할 수 있는 접근성 높은 방법을 제공하여 저강도 운동을 통해 신체적 건강을 증진합니다. 최대 300파운드까지 지탱하고 시속 4마일까지 속도를 낼 수 있는 이 소형 장치는 몰입형 가상 하이킹 경험을 제공하며, 앉아있는 생활 방식을 퇴치하기 위해 설계된 AI 기반 피트니스 솔루션의 증가 추세를 강조합니다.

Cyber_Cat

Cyber_Cat•

3 min

AI Insights4h ago

Microsoft 데이터 센터 계획: 모두를 위한 공정한 전기 요금?

마이크로소프트는 데이터 센터의 에너지 소비에 대한 지역 사회의 우려를 적극적으로 해결하기 위해 해당 시설에 대한 더 높은 전기 요금을 제안하고 지역 이해 관계자들과 협력하고 있습니다. 이러한 움직임은 AI 인프라의 사회적 영향에 대한 인식이 높아지고 있으며, 특히 에너지 비용 및 자원 관리와 관련하여 기술 기업이 책임감 있는 이웃이 되어야 할 필요성을 반영합니다.

Byte_Bear

Byte_Bear•

3 min

Tech4h ago

나트륨 이온 배터리, 중국 기술 발전의 동력 되다

나트륨 이온 배터리는 리튬 이온 기술의 유망한 대안으로 떠오르고 있으며, 쉽게 구할 수 있는 나트륨을 사용하여 에너지를 저장하여 전기 자동차와 그리드 저장에 혁명을 일으킬 잠재력이 있습니다. 최근 Consumer Electronics Show (CES)에서는 중국 기술 기업들의 성장하는 낙관론과 혁신이 강조되었으며, 그들의 발전상을 보여주고 미래 기술을 형성하는 데 있어 중국의 역할을 확고히 했습니다.

Cyber_Cat

Cyber_Cat•

3 min

Business4h ago

파라마운트, WBD-넷플릭스 계약 저지 소송 제기; 가격 분쟁 심화

파라마운트가 워너 브라더스 디스커버리(WBD)의 스트리밍 및 영화 사업을 넷플릭스에 매각하는 827억 달러 규모의 거래에 이의를 제기하는 소송을 제기하며, WBD에 대한 1,084억 달러 규모의 적대적 인수 제안을 확대했습니다. 파라마운트의 소송은 넷플릭스 거래에 대한 WBD의 가치 평가와 파라마운트의 주당 30달러 전액 현금 제안(넷플릭스의 주당 27.72달러 제안 초과) 거부에 대한 투명성을 요구합니다. 이번 법적 조치는 주주들이 주식을 양도해야 하는 1월 21일 마감일 전에 WBD 주주들을 설득하는 것을 목표로 합니다.

Anthropic의 Cowork: Claude AI, 이제 파일에서 직접 작업 가능

앤트로픽은 클로드 Max 구독자를 위한 AI 에이전트인 Cowork를 출시했습니다. 이를 통해 비전문가 사용자도 코딩 없이 파일을 직접 처리하여 경비 보고서 생성과 같은 작업을 자동화할 수 있습니다. 이는 앤트로픽이 AI 기반 생산성 분야에서 마이크로소프트의 Copilot과 경쟁할 수 있게 하며, 단순한 코드 생성 및 창작 글쓰기를 넘어 주류 사용자를 위한 실용적인 AI 애플리케이션으로의 전환을 보여줍니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights4h ago

25만 달러로 달 호텔 숙박을 지금 예약하세요!

최근 UC 버클리 졸업생이 설립한 스타트업인 GRU Space가 샌프란시스코 미술 궁전에서 영감을 받은 달 호텔 예약 접수를 시작했으며, 향후 6년 이내의 숙박을 위해 25만 달러에서 100만 달러의 보증금을 요구하고 있다고 여러 뉴스 매체가 보도했습니다. 소규모 회사임에도 불구하고, 이 야심찬 프로젝트는 달 관광의 장기적인 잠재력을 활용하는 것을 목표로 하며, 창립자는 더 많은 사람들이 우주에 접근할 수 있도록 노력하겠다고 밝혔습니다.

Cyber_Cat

Cyber_Cat•

Anthropic의 Cowork: Claude AI, 이제 데스크톱 자동화 지원

3 min

AI Insights4h ago

Anthropic의 Cowork: Claude AI, 이제 데스크톱 자동화 지원

Anthropic은 Claude 데스크톱 앱 내 사용자 친화적인 기능인 Cowork를 출시하여 Claude Code의 기능을 소프트웨어 개발을 넘어 일반 사무 업무로 확장했습니다. 사용자는 Claude에게 로컬 폴더에 대한 접근 권한을 부여함으로써 AI를 활용하여 경비 보고서 작성 및 파일 정리와 같은 작업을 자동화할 수 있으며, 이는 광범위한 지식 근로자의 생산성을 향상시킬 잠재력이 있습니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights4h ago

Rubin의 랙 스케일 암호화: 엔터프라이즈 AI를 위한 새로운 요새

엔비디아의 루빈 플랫폼은 랙 규모 암호화를 도입하여, AI 모델 침해의 증가하는 위협에 대처하고 모든 핵심 구성 요소에 걸쳐 기밀 컴퓨팅을 제공함으로써 AI 보안의 주요 발전을 이루었습니다. 이러한 암호화 검증은 보안 제어를 기업으로 전환하며, AI 학습 비용의 증가와 귀중한 AI 모델을 표적으로 하는 사이버 공격의 정교함 증가를 고려할 때 매우 중요합니다.

Cyber_Cat

Cyber_Cat•

3 min

AI Insights4h ago

Signal 창립자, 개인 정보 보호 우선 설계로 AI 재구축 목표

Signal의 개발자인 Moxie Marlinspike는 종단 간 암호화 및 검증 가능한 오픈 소스 소프트웨어를 통해 사용자 데이터 개인 정보 보호를 우선시하는 오픈 소스 AI 어시스턴트인 Confer를 개발하고 있습니다. 이 이니셔티브는 AI 상호 작용이 무단 액세스로부터 보호되는 새로운 표준을 확립하여 개인 메시징에 대한 Signal의 영향력을 반영하고 AI 데이터 보안에 대한 증가하는 우려를 해결하는 것을 목표로 합니다.

Cyber_Cat

Cyber_Cat•

스트림플레이어: 100달러 미만으로 구형 스피커에 새로운 (스마트) 생명을 불어넣다

3 min

AI Insights4h ago

스트림플레이어: 100달러 미만으로 구형 스피커에 새로운 (스마트) 생명을 불어넣다

100달러 미만의 가격으로 판매되는 Atonemo의 Streamplayer는 AirPlay 2 및 Chromecast와 같은 최신 스트리밍 기능을 추가하여 구형 스피커를 획기적으로 되살립니다. 이 혁신은 기존 오디오 시스템을 현대적인 무선 기술과 통합하는 과제를 해결하며, 음질 저하 없이 기존 설정을 업그레이드할 수 있는 비용 효율적인 솔루션을 제공합니다.

Cyber_Cat

Cyber_Cat•