A OpenAI está a usar a base de dados de código aberto PostgreSQL para suportar a sua plataforma ChatGPT e API, que serve 800 milhões de utilizadores. Numa publicação de blogue publicada na quinta-feira, a OpenAI revelou que está a executar a sua enorme base de utilizadores numa única instância PostgreSQL primária, em vez de uma base de dados distribuída ou cluster fragmentado.
A configuração utiliza um Azure PostgreSQL Flexible Server para todas as operações de escrita, com aproximadamente 50 réplicas de leitura distribuídas por várias regiões para lidar com pedidos de leitura. De acordo com a OpenAI, o sistema gere milhões de consultas por segundo, mantendo uma baixa latência p99 de dois dígitos em milissegundos e uma disponibilidade de cinco noves.
Esta abordagem desafia a sabedoria convencional relativamente ao dimensionamento de bases de dados, oferecendo informações valiosas para arquitetos empresariais que lidam com sistemas de grande escala. A empresa enfatizou que a principal conclusão não é replicar a infraestrutura específica da OpenAI, mas sim priorizar padrões de carga de trabalho e restrições operacionais ao tomar decisões arquitetónicas, em vez de reagir a desafios de dimensionamento percebidos ou adotar tecnologias da moda sem uma consideração cuidadosa.
A decisão de confiar no PostgreSQL destaca o potencial de sistemas bem estabelecidos quando as equipas se concentram na otimização deliberada em vez de uma re-arquitetura prematura. Embora as bases de dados vetoriais tenham ganho força para aplicações de IA específicas, o caso de uso da OpenAI demonstra que as bases de dados relacionais tradicionais ainda podem lidar eficazmente com cargas de trabalho massivas com configuração e otimização adequadas.
As implicações da abordagem da OpenAI estendem-se para além da arquitetura da base de dados. Sugere que as organizações devem avaliar cuidadosamente as suas necessidades e restrições específicas antes de adotar soluções complexas e potencialmente desnecessárias. Ao concentrarem-se na otimização dos sistemas existentes, as empresas podem potencialmente alcançar ganhos de desempenho e economias de custos significativos.
O sucesso da OpenAI com o PostgreSQL sublinha a importância de compreender as vantagens e desvantagens entre diferentes tecnologias de bases de dados e padrões arquitetónicos. Embora as bases de dados distribuídas e os clusters fragmentados ofereçam benefícios de escalabilidade, também introduzem complexidade e sobrecarga operacional. Em alguns casos, uma base de dados de instância única bem otimizada pode ser uma solução mais eficiente e económica.
A empresa ainda não divulgou detalhes específicos sobre as técnicas de otimização que empregou para alcançar este nível de desempenho. No entanto, a publicação do blogue sugere que a atenção cuidadosa aos padrões de carga de trabalho, à otimização de consultas e à configuração da infraestrutura desempenharam um papel crucial. Espera-se que mais detalhes sejam divulgados nos próximos meses, fornecendo informações valiosas para administradores de bases de dados e arquitetos que procuram dimensionar as suas próprias implementações PostgreSQL.
Discussion
Join the conversation
Be the first to comment