OpenAI exploite la base de données open source PostgreSQL pour prendre en charge sa plateforme ChatGPT et son API, qui dessert 800 millions d'utilisateurs. Dans une déclaration faite jeudi, OpenAI a révélé qu'elle exploitait ses services sur une instance PostgreSQL à primaire unique, plutôt que sur une base de données distribuée ou un cluster partitionné.
Le système utilise un serveur Azure PostgreSQL Flexible Server pour toutes les opérations d'écriture, complété par près de 50 réplicas de lecture répartis dans plusieurs régions pour gérer les requêtes de lecture. Selon OpenAI, cette configuration traite des millions de requêtes par seconde tout en maintenant une faible latence p99 de l'ordre de quelques dizaines de millisecondes et en atteignant une disponibilité de cinq neuf.
Cette approche remet en question les idées reçues concernant le dimensionnement des bases de données et fournit des informations précieuses aux architectes d'entreprise qui gèrent des systèmes à grande échelle. Selon OpenAI, la principale conclusion est que les décisions architecturales doivent être guidées par des modèles de charge de travail et des contraintes opérationnelles spécifiques, plutôt que de succomber à la « panique de mise à l'échelle » ou d'adopter des choix d'infrastructure à la mode. La configuration PostgreSQL de l'entreprise démontre le potentiel des systèmes bien établis lorsque les équipes se concentrent sur une optimisation délibérée au lieu d'une réarchitecture prématurée.
Bien que les bases de données vectorielles soient souvent considérées comme essentielles pour les applications d'IA, le succès d'OpenAI avec PostgreSQL souligne la pertinence et l'évolutivité continues des bases de données relationnelles traditionnelles. Les bases de données vectorielles excellent dans le stockage et l'interrogation d'intégrations vectorielles de haute dimension, qui sont cruciales pour des tâches telles que la recherche sémantique et les systèmes de recommandation. Cependant, PostgreSQL, avec des extensions et des optimisations appropriées, peut également gérer les données vectorielles et les requêtes complexes, offrant ainsi une solution plus polyvalente.
Les implications de l'approche d'OpenAI vont au-delà de l'architecture de la base de données. Elle suggère que les organisations devraient évaluer attentivement leurs besoins et contraintes spécifiques avant d'adopter des technologies complexes ou non éprouvées. En se concentrant sur l'optimisation et en tirant parti de l'infrastructure existante, les entreprises peuvent potentiellement réaliser des gains de performance et des économies de coûts importants. Cette approche souligne également l'importance d'une compréhension approfondie des caractéristiques de la charge de travail et des exigences opérationnelles pour prendre des décisions architecturales éclairées.
L'évolution future de l'infrastructure de base de données d'OpenAI reste à voir. Cependant, le succès actuel de l'entreprise avec PostgreSQL démontre la puissance d'une conception et d'une optimisation réfléchies pour atteindre une échelle massive. Cette approche offre une leçon précieuse aux entreprises qui naviguent dans les complexités de la gestion moderne des données et de l'infrastructure d'IA.
Discussion
Join the conversation
Be the first to comment