A OpenAI está a utilizar a base de dados de código aberto PostgreSQL para suportar a sua plataforma ChatGPT e API, que serve 800 milhões de utilizadores. Numa divulgação feita na quinta-feira, a OpenAI revelou que opera os seus serviços numa instância PostgreSQL de primário único, em vez de uma base de dados distribuída ou cluster fragmentado.
O sistema utiliza um Azure PostgreSQL Flexible Server para todas as operações de escrita, complementado por quase 50 réplicas de leitura distribuídas por várias regiões para lidar com pedidos de leitura. De acordo com a OpenAI, esta configuração processa milhões de consultas por segundo, mantendo uma baixa latência p99 de dois dígitos em milissegundos e atingindo uma disponibilidade de cinco noves.
Esta abordagem desafia a sabedoria convencional relativamente ao dimensionamento de bases de dados e fornece informações valiosas para arquitetos empresariais que lidam com sistemas de grande escala. A principal conclusão, de acordo com a OpenAI, é que as decisões arquitetónicas devem ser guiadas por padrões de carga de trabalho e restrições operacionais específicas, em vez de sucumbir ao "pânico de escala" ou de adotar escolhas de infraestruturas da moda. A configuração PostgreSQL da empresa demonstra o potencial de sistemas bem estabelecidos quando as equipas se concentram na otimização deliberada em vez de uma re-arquitetura prematura.
Embora as bases de dados de vetores sejam frequentemente consideradas essenciais para aplicações de IA, o sucesso da OpenAI com o PostgreSQL destaca a relevância e a escalabilidade contínuas das bases de dados relacionais tradicionais. As bases de dados de vetores destacam-se no armazenamento e consulta de incorporações de vetores de alta dimensão, que são cruciais para tarefas como a pesquisa semântica e os sistemas de recomendação. No entanto, o PostgreSQL, com extensões e otimizações adequadas, também pode lidar com dados vetoriais e consultas complexas, oferecendo uma solução mais de propósito geral.
As implicações da abordagem da OpenAI estendem-se para além da arquitetura da base de dados. Sugere que as organizações devem avaliar cuidadosamente as suas necessidades e restrições específicas antes de adotar tecnologias complexas ou não comprovadas. Ao concentrarem-se na otimização e ao aproveitarem a infraestrutura existente, as empresas podem potencialmente alcançar ganhos de desempenho e economias de custos significativos. Esta abordagem também sublinha a importância de uma compreensão profunda das características da carga de trabalho e dos requisitos operacionais na tomada de decisões arquitetónicas informadas.
O futuro desenvolvimento da infraestrutura de base de dados da OpenAI ainda está por ser visto. No entanto, o sucesso atual da empresa com o PostgreSQL demonstra o poder de um design e otimização ponderados na obtenção de uma escala massiva. Esta abordagem oferece uma lição valiosa para as empresas que navegam pelas complexidades da gestão de dados moderna e da infraestrutura de IA.
Discussion
Join the conversation
Be the first to comment