OpenAI использует базу данных с открытым исходным кодом PostgreSQL для поддержки своей платформы ChatGPT и API, обслуживающей 800 миллионов пользователей. В заявлении, сделанном в четверг, OpenAI сообщила, что ее сервисы работают на одно-экземплярной PostgreSQL с одним первичным узлом, а не на распределенной базе данных или шардированном кластере.
Система использует один Azure PostgreSQL Flexible Server для всех операций записи, дополненный почти 50 репликами для чтения, распределенными по нескольким регионам для обработки запросов на чтение. По данным OpenAI, эта конфигурация обрабатывает миллионы запросов в секунду, поддерживая низкую двузначную миллисекундную задержку p99 и достигая доступности в "пять девяток".
Этот подход бросает вызов общепринятым представлениям о масштабировании баз данных и предоставляет ценную информацию для корпоративных архитекторов, работающих с крупномасштабными системами. Ключевой вывод, по мнению OpenAI, заключается в том, что архитектурные решения должны основываться на конкретных моделях рабочей нагрузки и операционных ограничениях, а не поддаваться "панике масштабирования" или принимать модные инфраструктурные решения. Конфигурация PostgreSQL компании демонстрирует потенциал хорошо зарекомендовавших себя систем, когда команды сосредотачиваются на продуманной оптимизации вместо преждевременной перестройки архитектуры.
Хотя векторные базы данных часто считаются необходимыми для приложений ИИ, успех OpenAI с PostgreSQL подчеркивает сохраняющуюся актуальность и масштабируемость традиционных реляционных баз данных. Векторные базы данных превосходно подходят для хранения и запроса многомерных векторных вложений, которые имеют решающее значение для таких задач, как семантический поиск и системы рекомендаций. Однако PostgreSQL, с соответствующими расширениями и оптимизациями, также может обрабатывать векторные данные и сложные запросы, предлагая более универсальное решение.
Последствия подхода OpenAI выходят за рамки архитектуры баз данных. Это говорит о том, что организациям следует тщательно оценивать свои конкретные потребности и ограничения, прежде чем внедрять сложные или непроверенные технологии. Сосредоточившись на оптимизации и используя существующую инфраструктуру, компании могут потенциально добиться значительного повышения производительности и экономии затрат. Этот подход также подчеркивает важность глубокого понимания характеристик рабочей нагрузки и операционных требований при принятии обоснованных архитектурных решений.
Будущее развитие инфраструктуры баз данных OpenAI еще предстоит увидеть. Однако текущий успех компании с PostgreSQL демонстрирует силу продуманного проектирования и оптимизации для достижения огромного масштаба. Этот подход предлагает ценный урок для предприятий, ориентирующихся в сложностях современного управления данными и инфраструктуры ИИ.
Discussion
Join the conversation
Be the first to comment