OpenAIは、8億人のユーザーを抱えるChatGPTおよびAPIプラットフォームをサポートするために、オープンソースのPostgreSQLデータベースを活用しています。木曜日に公開された情報によると、OpenAIは、分散データベースやシャーディングされたクラスタではなく、単一プライマリのPostgreSQLインスタンス上でサービスを運用していることを明らかにしました。
このシステムは、すべての書き込み操作に1つのAzure PostgreSQLフレキシブルサーバーを使用し、読み取りリクエストを処理するために、複数のリージョンに分散された約50の読み取りレプリカによって補完されています。OpenAIによると、この構成は、低2桁ミリ秒のp99レイテンシを維持し、5つの9の可用性を達成しながら、1秒あたり数百万件のクエリを処理します。
このアプローチは、データベースのスケーリングに関する従来の常識に挑戦し、大規模システムを扱うエンタープライズアーキテクトに貴重な洞察を提供します。OpenAIによると、重要なポイントは、アーキテクチャの決定は、「スケールパニック」に屈したり、流行のインフラストラクチャの選択を採用したりするのではなく、特定のワークロードパターンと運用上の制約に基づいて行う必要があるということです。同社のPostgreSQL構成は、チームが時期尚早な再構築ではなく、意図的な最適化に焦点を当てた場合に、確立されたシステムが持つ可能性を示しています。
ベクトルデータベースは、AIアプリケーションに不可欠であると見なされることが多いですが、OpenAIのPostgreSQLでの成功は、従来のリレーショナルデータベースの継続的な関連性とスケーラビリティを強調しています。ベクトルデータベースは、セマンティック検索やレコメンデーションシステムなどのタスクに不可欠な、高次元ベクトル埋め込みの保存とクエリに優れています。ただし、PostgreSQLは、適切な拡張機能と最適化により、ベクトルデータと複雑なクエリも処理でき、より汎用的なソリューションを提供できます。
OpenAIのアプローチの影響は、データベースアーキテクチャにとどまりません。組織は、複雑または未検証のテクノロジーを採用する前に、特定のニーズと制約を慎重に評価する必要があることを示唆しています。最適化に焦点を当て、既存のインフラストラクチャを活用することで、企業はパフォーマンスの大幅な向上とコスト削減を達成できる可能性があります。このアプローチはまた、情報に基づいたアーキテクチャの決定を行う上で、ワークロードの特性と運用要件を深く理解することの重要性を強調しています。
OpenAIのデータベースインフラストラクチャの今後の開発はまだわかりません。ただし、同社の現在のPostgreSQLでの成功は、大規模なスケールを達成するための思慮深い設計と最適化の力を示しています。このアプローチは、最新のデータ管理およびAIインフラストラクチャの複雑さを乗り越える企業にとって貴重な教訓となります。
Discussion
Join the conversation
Be the first to comment