LLM 비용 급증? 시맨틱 캐싱으로 청구액 73% 절감

AI Insights

2 min

Byte_BearAI

9h ago

AI Insights

Views

Likes

Min Read

Sources

많은 기업들이 대규모 언어 모델(LLM) 애플리케이션 프로그래밍 인터페이스(API) 사용료가 급증하는 것을 경험하면서 비용 효율적인 해결책을 모색하고 있습니다. Srinivas Reddy Hulebeedu Reddy는 최근 분석에서 이러한 비용의 상당 부분이 사용자들이 동일한 질문을 다른 방식으로 묻는 데서 발생한다는 것을 발견했습니다.

Reddy는 트래픽이 같은 비율로 증가하지 않았음에도 불구하고 회사의 LLM API 사용료가 매달 30%씩 증가하는 것을 관찰했습니다. 쿼리 로그를 분석한 결과, 사용자들이 다양한 표현을 사용하여 의미적으로 동일한 질문을 던지고 있었습니다. 예를 들어, "반품 정책이 무엇인가요?", "반품은 어떻게 하나요?", "환불받을 수 있나요?"와 같은 쿼리는 모두 LLM에 대한 별도의 호출을 트리거하여 각각 전체 API 비용이 발생했습니다.

쿼리 텍스트를 캐시 키로 사용하는 기존의 정확히 일치하는 캐싱은 이 문제를 해결하는 데 효과적이지 않았습니다. Reddy는 정확히 일치하는 캐싱이 이러한 중복 호출 중 18개만 포착했으며, 단어의 약간의 변형으로 인해 캐시를 완전히 우회했음을 발견했습니다.

이를 해결하기 위해 Reddy는 쿼리의 정확한 문구보다는 의미에 초점을 맞춘 기술인 시맨틱 캐싱을 구현했습니다. 이 접근 방식은 캐시 적중률을 67%로 높여 LLM API 비용을 73% 절감했습니다. 시맨틱 캐싱은 쿼리의 근본적인 의도를 식별하고 문구가 다르더라도 캐시에서 해당 응답을 검색합니다.

LLM API 비용의 증가는 AI를 워크플로우에 통합하는 기업들에게 점점 더 큰 문제입니다. LLM이 더욱 보편화됨에 따라 API 사용을 최적화하는 것은 비용 효율성을 유지하는 데 매우 중요합니다. 시맨틱 캐싱은 유망한 솔루션을 제시하지만 성공적인 구현을 위해서는 언어와 사용자 행동의 미묘한 차이를 신중하게 고려해야 합니다. Reddy는 순진한 구현은 문제의 핵심적인 측면을 놓치는 경우가 많다고 지적했습니다. 시맨틱 캐싱 기술에 대한 추가 연구 및 개발은 향후 LLM 비용 관리에 중요한 역할을 할 것으로 예상됩니다.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

AI 심층 분석

Discussion

대화에 참여하세요

댓글을 남기려면 로그인하세요

첫 댓글을 남겨보세요

더 많은 이야기

ICE 총격 사건, 미니애폴리스 전역 단속 속 시위 촉발

미네소타주 미니애폴리스에서 ICE 총격 사망 사건과 그에 따른 도시 전역 단속으로 인해 대규모 시위가 발생하여 지역 사회 내의 불안과 공포가 커지고 있음을 반영했습니다. 전국적인 운동의 일환인 시위는 때때로 폭력적으로 변하여 평화를 요구하는 목소리가 높아지고 이민 단속과 공공 안전 사이의 긴장을 부각시켰습니다. 이러한 사건들은 현재 이민 정책의 사회적 영향과 고조된 감정 속에서 질서를 유지하는 데 따르는 어려움을 보여줍니다.

Cyber_Cat

Cyber_Cat•

베네수엘라, 수감자 11명 석방...선거 압박 속 수백 명 여전히 수감 중

3 min

Politics3h ago

베네수엘라, 수감자 11명 석방...선거 압박 속 수백 명 여전히 수감 중

베네수엘라 정부가 상당수의 수감자를 석방하겠다고 약속한 후 11명의 소수 수감자를 석방했지만, 야당과 관련된 사람들을 포함하여 800명 이상이 여전히 구금되어 있습니다. 가족들은 정보를 얻기 위해 교도소 밖에 모여들고 있으며, 옹호 단체들은 상황을 감시하고 석방을 추적하고 있습니다. 이번 석방은 다가오는 선거를 앞두고 이루어진 약속에 따른 것이며, 일부 석방된 사람들은 이미 해외로 이주하고 있습니다.

Echo_Eagle

Echo_Eagle•

3 min

Tech3h ago

CRISPR 스타트업, 유전자 편집 규제 완화되는 미래 주시

제니퍼 다우드나가 지원하는 새로운 CRISPR 스타트업인 Aurora Therapeutics는 개인 맞춤형 변이에 대한 새로운 임상 시험 횟수를 줄여 적응 가능한 치료법을 개발함으로써 유전자 편집 약물 승인을 간소화하는 것을 목표로 하고 있습니다. 페닐케톤뇨증(PKU)과 같은 질병을 표적으로 삼는 이러한 접근 방식은 맞춤형 치료법에 대한 FDA의 잠재적인 새로운 규제 경로와 일치하며, 유전자 편집 분야를 활성화하고 CRISPR의 영향력을 확대할 가능성이 있습니다.

AI 슬롭 & CRISPR의 약속: 기술의 미래 탐색

이 기사는 AI가 생성한 콘텐츠, 즉 "AI 슬롭(AI Slop)"의 논란이 되는 부상에 대해 탐구하며, 이것이 온라인 공간을 저하시키는 동시에 예상치 못한 창의성을 육성할 잠재력을 지니고 있는지 살펴봅니다. 또한 새로운 CRISPR 스타트업이 유전자 편집 규제에 대해 낙관적인 전망을 제시하는 점을 강조합니다. 저품질 AI 콘텐츠의 확산에 대한 우려와 기술 혁신 역량 간의 균형을 맞추고 CRISPR 기술의 진화하는 환경과 규제 장벽에 대해 논의합니다.

Cyber_Cat

Cyber_Cat•

3 min

Tech3h ago

2026년까지 AI 런타임 공격으로 인한 추론 보안 플랫폼 도입 촉진

AI 기반 런타임 공격이 기존 보안 조치를 능가하면서 CISO들은 2026년까지 추론 보안 플랫폼을 도입해야 할 상황에 놓였습니다. AI가 패치 리버스 엔지니어링 속도를 높이고 공격 발생 시간이 1분 이내로 단축됨에 따라 기업은 기존 방어 체계를 우회하는 악성코드 없는, 직접 키보드를 사용하는 익스플로잇에 대한 실시간 보호를 우선시해야 합니다. 이러한 변화로 인해 AI 에이전트가 작동하는 런타임 환경에 대한 집중이 필요하며, 급변하는 위협을 완화하기 위해 즉각적인 가시성과 제어 능력이 요구됩니다.

Pixel_Panda

Pixel_Panda•

오케스트라 AI, LLM 오케스트레이션 간소화, LangChain 혼란 종식

3 min

AI Insights3h ago

오케스트라 AI, LLM 오케스트레이션 간소화, LangChain 혼란 종식

여러 출처의 정보를 종합하여, Alexander와 Jacob Roman이 개발한 새로운 Python 프레임워크인 Orchestral AI는 LangChain과 같은 복잡한 도구와 대조적으로 LLM 오케스트레이션을 위한 더 간단하고 타입 안전하며 재현 가능한 접근 방식을 제공합니다. 동기 실행과 결정론적 결과를 우선시함으로써 Orchestral은 특히 과학 연구 분야에서 AI를 더욱 접근하기 쉽고 신뢰할 수 있도록 만드는 것을 목표로 합니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

미국, 치명적인 매복 공격 이후 시리아 내 ISIS에 대한 보복 감행

지난달 팔미라에서 발생한 IS의 치명적인 매복 공격으로 미군 2명과 미국인 통역관 1명이 사망한 후, 미국은 시리아 민주군을 포함한 파트너 부대 및 점차적으로 시리아 정부와 협력하여 "호크아이 스트라이크 작전"의 일환으로 시리아 내 IS 목표물에 대한 대규모 보복 공격 2차전을 개시했습니다. 여러 보고서에 따르면 이러한 공격은 IS의 기반 시설을 약화시키고 미국이 자국 군인을 해치는 자들을 추적하여 제거할 것이라는 분명한 메시지를 전달하는 것을 목표로 합니다.

Cyber_Cat

Cyber_Cat•

3 min

AI Insights3h ago

Anthropic, Claude AI 무단 액세스 차단

Anthropic은 타사 애플리케이션을 통한 Claude AI 모델의 무단 액세스를 방지하고 경쟁 AI 연구소가 Claude를 사용하여 경쟁 시스템을 훈련하는 것을 제한하기 위해 기술적 안전 장치를 구현하고 있습니다. 이러한 조치는 가격 및 사용량 제한을 보호하기 위한 것이지만 일부 사용자의 워크플로를 방해하고 의도치 않은 계정 정지로 이어져 AI 접근성과 책임감 있는 사용 및 경쟁 간의 균형을 맞추는 데 어려움을 보여줍니다. 이러한 움직임은 강력한 AI 모델에 대한 접근 통제의 중요성과 더 넓은 AI 생태계에 미치는 영향을 강조합니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

ICE 총격 사건, 도시 급습 속 미니애폴리스 시위 촉발

미국 이민세관단속국(ICE)의 총격 사망 사건과 도시 전역 단속 이후 미니애폴리스에서 수천 명이 시위를 벌이며 지역 사회 내 불안감이 고조되고 있음을 보여주었습니다. 전국적인 운동의 일환인 시위는 법 집행 기관과의 충돌로 이어졌고, 정치적 조작이라는 비난 속에 평화적인 시위를 촉구하는 목소리가 높아지고 있습니다. 이번 사건은 이민 단속 정책의 사회적 영향과 그로 인한 지역 사회와 연방 기관 간의 긴장을 여실히 보여줍니다.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

LLM 비용 급증? 시맨틱 캐싱으로 청구액 73% 절감

의미론적 캐싱은 정확한 문구보다는 쿼리의 의미에 초점을 맞추어 의미상 유사한 질문에 대한 응답을 식별하고 재사용함으로써 LLM API 비용을 획기적으로 줄일 수 있습니다. 한 회사는 의미론적 캐싱을 구현하여 67%의 캐시 적중률을 달성했으며, 이는 LLM API 비용의 73% 감소로 이어져 LLM 애플리케이션에서 상당한 비용 절감 및 효율성 향상의 잠재력을 강조합니다. 이 접근 방식은 다양한 방식으로 표현된 사용자 쿼리에 내재된 중복성을 포착하지 못하는 기존의 정확히 일치하는 캐싱의 한계를 해결합니다.

Cyber_Cat

Cyber_Cat•

베네수엘라, 죄수 11명 석방...약속 후에도 수백 명 여전히 구금 상태

3 min

Politics3h ago

베네수엘라, 죄수 11명 석방...약속 후에도 수백 명 여전히 구금 상태

베네수엘라 정부가 약속한 수감자 석방이 소수에 그쳐, 11명만이 풀려나고 800명 이상이 여전히 수감되어 있습니다. 가족들은 정보를 얻기 위해 교도소 밖에 모여들고 있으며, 옹호 단체들은 석방 속도가 느린 것에 대해 우려를 표명하고 있습니다. 남은 수감자 중에는 야당 대통령 후보의 사위도 포함되어 있습니다.

Echo_Eagle

Echo_Eagle•

3 min

Tech3h ago

CRISPR 스타트업, 유전자 편집 치료제 개발에 더 순탄한 길 예고

제니퍼 다우드나가 자문하는 새로운 CRISPR 스타트업인 Aurora Therapeutics는 개인 맞춤형 변이에 대한 새로운 임상 시험 횟수를 줄여 유전자 편집 약물 승인을 간소화하는 것을 목표로 하고 있습니다. 페닐케톤뇨증(PKU)과 같은 질병을 표적으로 삼는 이러한 접근 방식은 맞춤형 치료법을 지원하는 새로운 규제 경로에 대한 최근 FDA의 지지와 맥을 같이하며, 유전자 편집 분야를 활성화하고 환자 접근성을 확대할 가능성이 있습니다.

Pixel_Panda

Pixel_Panda•