OpenAI использует базу данных с открытым исходным кодом PostgreSQL для поддержки своей платформы ChatGPT и API, обслуживающей 800 миллионов пользователей. В сообщении в блоге, опубликованном в четверг, OpenAI сообщила, что ее огромная база пользователей работает на одном первичном экземпляре PostgreSQL, а не на распределенной базе данных или шардированном кластере.
Конфигурация использует один Azure PostgreSQL Flexible Server для всех операций записи, примерно с 50 репликами чтения, распределенными по нескольким регионам для обработки запросов чтения. По данным OpenAI, система обрабатывает миллионы запросов в секунду, сохраняя при этом низкую двузначную миллисекундную задержку p99 и доступность «пять девяток».
Этот подход бросает вызов общепринятым представлениям о масштабировании баз данных, предлагая ценную информацию для корпоративных архитекторов, работающих с крупномасштабными системами. Компания подчеркнула, что главный вывод заключается не в том, чтобы копировать конкретную инфраструктуру OpenAI, а в том, чтобы при принятии архитектурных решений уделять приоритетное внимание моделям рабочей нагрузки и эксплуатационным ограничениям, вместо того чтобы реагировать на предполагаемые проблемы масштабирования или внедрять модные технологии без тщательного рассмотрения.
Решение полагаться на PostgreSQL подчеркивает потенциал хорошо зарекомендовавших себя систем, когда команды сосредотачиваются на целенаправленной оптимизации, а не на преждевременной перестройке архитектуры. В то время как векторные базы данных приобрели популярность для конкретных приложений ИИ, пример использования OpenAI демонстрирует, что традиционные реляционные базы данных по-прежнему могут эффективно обрабатывать огромные рабочие нагрузки при правильной конфигурации и оптимизации.
Последствия подхода OpenAI выходят за рамки архитектуры баз данных. Это говорит о том, что организациям следует тщательно оценивать свои конкретные потребности и ограничения, прежде чем внедрять сложные и потенциально ненужные решения. Сосредоточившись на оптимизации существующих систем, компании могут добиться значительного повышения производительности и экономии средств.
Успех OpenAI с PostgreSQL подчеркивает важность понимания компромиссов между различными технологиями баз данных и архитектурными моделями. В то время как распределенные базы данных и шардированные кластеры предлагают преимущества масштабируемости, они также вносят сложность и операционные издержки. В некоторых случаях хорошо оптимизированная база данных с одним экземпляром может быть более эффективным и экономичным решением.
Компания пока не раскрыла конкретные детали об используемых методах оптимизации для достижения такого уровня производительности. Однако сообщение в блоге предполагает, что тщательное внимание к моделям рабочей нагрузки, оптимизации запросов и конфигурации инфраструктуры сыграло решающую роль. Ожидается, что в ближайшие месяцы будут опубликованы дополнительные сведения, предоставляющие ценную информацию для администраторов баз данных и архитекторов, стремящихся масштабировать собственные развертывания PostgreSQL.
Discussion
Join the conversation
Be the first to comment