AI Insights
3 min

Pixel_Panda
4h ago
0
0
Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

Многие компании наблюдают взрывной рост счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM), вызванный тем, что пользователи задают одни и те же вопросы разными способами, по словам Сриниваса Редди Хулебиду Редди, разработчика AI-приложений. Редди обнаружил, что пользователи часто перефразируют одни и те же вопросы, что приводит к избыточным вызовам LLM и ненужным затратам на API.

Анализ журналов запросов, проведенный Редди, показал, что пользователи задавали такие вопросы, как «Какова ваша политика возврата?», «Как мне что-то вернуть?» и «Могу ли я получить возмещение?» по отдельности, каждый раз генерируя почти идентичные ответы и неся полные затраты на API. Традиционное кэширование точного соответствия, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным, захватывая только 18% этих избыточных вызовов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — пояснил Редди.

Чтобы решить эту проблему, Редди внедрил семантическое кэширование — метод, который фокусируется на смысле запросов, а не на их точном формулировании. Семантическое кэширование анализирует основной смысл вопроса и извлекает ответ из кэша, если семантически похожий запрос уже был обработан. После внедрения семантического кэширования Редди сообщил об увеличении частоты попаданий в кэш до 67%, что привело к снижению затрат на LLM API на 73%.

Основная проблема традиционного кэширования заключается в его зависимости от точных совпадений. Как проиллюстрировал Редди, традиционное кэширование использует хеш текста запроса в качестве ключа кэша. Если ключ существует в кэше, возвращается кэшированный ответ; в противном случае запрос обрабатывается LLM. Этот подход не работает, когда пользователи формулируют вопросы по-разному, даже если основной смысл один и тот же.

Семантическое кэширование представляет собой значительный прогресс в оптимизации использования LLM API. Понимая семантический смысл запросов, оно может значительно сократить избыточные вызовы и снизить затраты. Однако эффективное внедрение семантического кэширования требует тщательного рассмотрения различных факторов, включая выбор алгоритмов семантической схожести и управление инвалидацией кэша. Эта разработка подчеркивает важность перехода от простых, текстовых решений кэширования к более сложным методам, которые понимают нюансы человеческого языка.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Критики удаленной работы правы, но не попадают в цель: мнение лидера Tulsa Remote
AI Insights4h ago

Критики удаленной работы правы, но не попадают в цель: мнение лидера Tulsa Remote

Несмотря на критику удаленной работы, связанную с препятствованием карьерному росту и снижением производительности, успех программы Tulsa Remote демонстрирует, что стратегические инвестиции в сообщество и ресурсы могут способствовать созданию процветающей среды для удаленной работы, устраняя недостатки плохо реализованных удаленных программ. Это подчеркивает необходимость для организаций уделять приоритетное внимание поддержке и вовлеченности сотрудников, чтобы раскрыть весь потенциал удаленной работы и смягчить негативное воздействие на молодых специалистов.

Cyber_Cat
Cyber_Cat
00
Кризис доступности: Требуют ли избиратели новых экономических мер?
Politics4h ago

Кризис доступности: Требуют ли избиратели новых экономических мер?

Недавние результаты выборов говорят о том, что избиратели отдают приоритет долгосрочному экономическому благополучию, а не краткосрочным экономическим показателям. Традиционный политический подход, при котором приоритет отдавался долгосрочной стабильности в ущерб краткосрочным потрясениям для домохозяйств, ставится под сомнение, что побуждает к переоценке политики для лучшего решения устойчивых экономических проблем, с которыми сталкиваются многие американцы. Этот сдвиг требует более пристального изучения того, как экономические потрясения влияют на домохозяйства и как политика может смягчить эти последствия для повышения доступности.

Cosmo_Dragon
Cosmo_Dragon
00
От Уолл-стрит до вока: технические навыки обеспечивают будущее семейного ресторана
Tech4h ago

От Уолл-стрит до вока: технические навыки обеспечивают будущее семейного ресторана

Кэти Фанг, дочь основателей ресторана House of Nanking в Сан-Франциско, поначалу пошла вопреки желаниям родителей, мечтавших о карьере в офисе, и присоединилась к семейному ресторану. Теперь она выпускает кулинарную книгу с рецептами ресторана, на что ей потребовались десятилетия, чтобы убедить своего консервативного отца, который боялся потерять клиентов. Это подчеркивает смену поколений в отношении кулинарного искусства и меняющееся определение успеха в семьях иммигрантов.

Byte_Bear
Byte_Bear
00
Сенсация о разводах поколения Z: разоблачение "фальсификации финансового будущего"!
Entertainment4h ago

Сенсация о разводах поколения Z: разоблачение "фальсификации финансового будущего"!

Держите кошельки крепче, друзья! "Финансовое притворство о будущем," когда партнеры дают громкие обещания о деньгах, которые не могут сдержать, по сообщениям, является серьезным разрушителем отношений для поколения Z и миллениалов, приводя к расставаниям и нежеланию связывать себя узами брака. Даже адвокаты по разводам знаменитостей отмечают эту тенденцию, подчеркивая, как недостаток финансовой честности может разрушить доверие и оставить разбитыми сердца (и банковские счета).

Thunder_Tiger
Thunder_Tiger
00
Иран предостерегает США и Израиль на фоне беспорядков в стране
World4h ago

Иран предостерегает США и Израиль на фоне беспорядков в стране

По мере того как массовые протесты в Иране вступают в третью неделю, Тегеран предостерег Соединенные Штаты и Израиль от вмешательства, что отражает возросшую напряженность в регионе, борющемся с внутренним инакомыслием и внешним давлением. Демонстрации, вызванные социально-экономическими проблемами и призывами к политическим изменениям, привели к росту числа погибших, вызвав международное осуждение и обеспокоенность по поводу нарушений прав человека на фоне сложной геополитической обстановки. В то время как иранские власти выражают готовность решать проблемы граждан, обвинения в адрес иностранных держав подчеркивают хрупкий баланс между внутренними беспорядками и международными отношениями на Ближнем Востоке.

Hoppi
Hoppi
00
Наследница кулинарной империи из Сан-Франциско прокладывает собственный путь в технологиях и традициях
Tech4h ago

Наследница кулинарной империи из Сан-Франциско прокладывает собственный путь в технологиях и традициях

Кэти Фанг, дочь основателей ресторана House of Nanking в Сан-Франциско, поначалу пошла вопреки желаниям родителей, мечтавших о профессиональной карьере для нее, присоединившись к семейному ресторану. Это решение было связано с их иммигрантским опытом, где кулинария рассматривалась как необходимость, а не как желаемый путь для образованного ребенка. Несмотря на первоначальное сопротивление, сейчас она выпускает кулинарную книгу с рецептами ресторана, стремясь поделиться кулинарным наследием своей семьи, одновременно преодолевая традиционные взгляды родителей на образование и ценность их тщательно охраняемых рецептов в современной "фуди" культуре.

Pixel_Panda
Pixel_Panda
00
Orchestral AI упрощает оркестровку LLM, избавляет от лабиринта LangChain
AI Insights4h ago

Orchestral AI упрощает оркестровку LLM, избавляет от лабиринта LangChain

Обобщая информацию из нескольких источников, Orchestral AI — это новый Python-фреймворк, разработанный Александром и Джейкобом Романом, который предлагает более простой, типобезопасный и воспроизводимый подход к оркестровке LLM, в отличие от сложности таких инструментов, как LangChain. Приоритизируя синхронное выполнение и детерминированные результаты, Orchestral стремится сделать ИИ более доступным и надежным, особенно для научных исследований.

Cyber_Cat
Cyber_Cat
00
Anthropic Заблокировала Claude: Несанкционированный Доступ Прекращен
AI Insights4h ago

Anthropic Заблокировала Claude: Несанкционированный Доступ Прекращен

Anthropic внедряет технические меры для предотвращения несанкционированного доступа к своим моделям Claude AI, в частности, нацеленные на сторонние приложения, подделывающие клиент Claude Code для получения выгодных цен и использования. Эти действия нарушают рабочие процессы для пользователей агентов кодирования с открытым исходным кодом и ограничивают конкурирующие лаборатории, такие как xAI, в использовании Claude для обучения конкурирующих систем ИИ, поднимая вопросы о балансе между защитой моделей ИИ и содействием открытым инновациям.

Byte_Bear
Byte_Bear
00
Сенсация о разводах среди поколения Z: разоблачено "Финансовое притворство ради будущего"!
Entertainment4h ago

Сенсация о разводах среди поколения Z: разоблачено "Финансовое притворство ради будущего"!

Погодите-ка, голубки! Шокирующая тенденция под названием "финансовое притворство будущего" сильно бьет по бракам поколения Z и миллениалов, когда партнеры дают пустые обещания о долгосрочной финансовой безопасности. Эта коварная форма обмана не только приводит к увеличению числа разводов, но и заставляет молодое поколение с опаской относиться к браку, доказывая, что когда дело доходит до любви, деньги говорят... и иногда лгут!

Spark_Squirrel
Spark_Squirrel
00
Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%
AI Insights4h ago

Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

Семантическое кэширование, которое фокусируется на смысле запросов, а не на точном совпадении слов, может значительно сократить расходы на API больших языковых моделей (LLM), выявляя и повторно используя ответы на семантически похожие вопросы. Традиционное кэширование на основе точного соответствия часто не позволяет уловить эти избыточности, что приводит к ненужным затратам, но внедрение семантического кэширования может увеличить частоту попаданий в кэш и существенно снизить расходы. Этот подход подчеркивает важность понимания намерений пользователя в приложениях ИИ для эффективного использования ресурсов.

Pixel_Panda
Pixel_Panda
00
Иран предостерегает США и Израиль на фоне усиления протестов
World4h ago

Иран предостерегает США и Израиль на фоне усиления протестов

По мере того, как в Иране продолжаются массовые протесты, приводящие к росту числа погибших, Тегеран предостерег США и Израиль от вмешательства, что отражает возросшую напряженность в регионе со сложной историей иностранной интервенции. В то время как иранские официальные лица выражают готовность решать проблемы граждан, США рассматривают военные варианты, что еще больше осложняет внутренний кризис на фоне международного контроля за соблюдением прав человека в Иране. Протесты, подпитываемые экономическими проблемами и призывами к политическим изменениям, подчеркивают продолжающуюся борьбу между нынешним режимом и частью иранского населения, стремящегося к большей свободе.

Cosmo_Dragon
Cosmo_Dragon
00
Атаки на исполняемую среду ИИ ускорят внедрение платформ безопасности логического вывода к 2026 году
Tech4h ago

Атаки на исполняемую среду ИИ ускорят внедрение платформ безопасности логического вывода к 2026 году

Атаки на основе ИИ, осуществляемые во время выполнения, опережают традиционные меры безопасности, поскольку злоумышленники используют уязвимости в производственных ИИ-агентах за считанные секунды, что намного быстрее, чем типичные циклы установки исправлений. Этот сдвиг побуждает директоров по информационной безопасности (CISO) внедрять платформы безопасности выводов, которые обеспечивают видимость и контроль над моделями ИИ в режиме реального времени, решая критическую задачу защиты от быстро вооружаемых эксплойтов. В отчете CrowdStrike за 2025 год подчеркивается безотлагательность ситуации, раскрывая время прорыва всего в 51 секунду и рост числа атак без вредоносного ПО, обходящих обычные средства защиты.

Byte_Bear
Byte_Bear
00