Notionが実現したグローバルなデータレジデンシー戦略
- •Notionが地域ごとのデータレジデンシーを実装し、顧客データを発生源の地域内に保持
- •新インフラにより、AIの埋め込みやベクトルデータベースが国境を越えずに機能
- •地域固有の取り込みパイプラインを通じ、検索やAI機能のコンプライアンスとパフォーマンスを維持
AIワークスペースを利用する際、リクエストを処理するサーバーが物理的にどこにあるのかを意識することはほとんどない。しかし、Notionのようなグローバルな生産性向上プラットフォームにとって、データが「どこに」存在するかは複雑なエンジニアリング上の課題である。同社は最近、ユーザーデータを欧州などの発生源となった地域内に保持しつつ、高度なAI機能を提供するためのマルチリージョン・データレジデンシーの実装プロセスを公開した。
この取り組みの核心は、ユーザー体験を損なわないことにある。例えば欧州の学生がNotionのAI機能を使う際、システムはクエリの処理、ページのインデックス化、回答の生成を、機密性の高いワークスペースコンテンツを大西洋の向こう側に送信することなく実行しなければならない。Notionはインフラをモジュール化して再設計することでこれを実現した。単一の巨大な集中型システムではなく、分離されたプライベートネットワークへと移行し、ワークスペース固有のIDを用いてデータを特定の地域境界内にルーティング・パーティションしている。
AI開発を追う人々にとって最も興味深いのは、これが現代の機械学習コンポーネントにどう適用されているかという点だ。NotionのAI機能はベクトルデータベースに依存しており、そこにはAIが文書の意味を理解するための数学的表現である「埋め込み」が保存されている。プライバシーを保護するため、同社は地域固有のデータ取り込みパイプラインを構築した。文書が更新されると、このパイプラインが起動し、集中型ではなくローカルのベクトルデータベース内の埋め込みが更新される仕組みだ。
この構成には、ジョブのオーケストレーション手法の大幅な見直しが必要となった。NotionはApache Airflowを「コントロールプレーン」として活用している。これは、プライベートデータ自体を処理することなく、他のシステムに実行指示を出す中央管理システムである。Apache Airflowは航空管制官のように機能し、機密情報を発生源の場所に留めたまま、Sparkジョブを各地域へ適切に振り分けている。
このアプローチは業界の重要なトレンドを示している。AIの導入が拡大するにつれ、強力で中央集権的なモデルを求める動きと、法規制上の要件であるデータ主権との間には緊張関係が生じている。Notionの動きは、企業が高度なAI機能と厳格なユーザープライバシーのどちらかを選ぶ必要はないことを証明した。最初から「地域認識型」のシステムを設計することで、将来的なデータ保護法の変化にも耐えうるプラットフォームの青写真を描いたのである。