PFNがコード生成AI評価用の「安全な砂場」を構築
- •PFNがモデル生成コードを安全に実行するサンドボックス環境を開発
- •AWS Lambdaを活用し外部通信を完全に遮断した低コストな隔離環境を実現
- •データ圧縮技術によりLambdaの通信容量制限を回避し大規模評価を可能に
AI開発の最前線に立つPreferred Networks(PFN)は、自社の大規模言語モデル「PLaMo」の性能評価を加速させるため、生成されたプログラムを安全にテストできる専用の「サンドボックス環境」を開発しました。HumanEvalやLiveCodeBenchといったベンチマークでは、AIが生成したコードにテスト用のプログラムを組み合わせて実際に実行し、その正確性を測定します。しかし、AIは時としてシステムを破壊するコマンドや外部ネットワークへの不正アクセスを試みるコードを出力するリスクを孕んでいます。これらを無防備に実行することは、開発インフラ全体の崩壊を招きかねないため、外部から隔離された「砂場(サンドボックス)」での実行が必須となります。
PFNは、この隔離環境をAWS Lambdaというサーバーレス・サービスを用いて構築しました。従来はKubernetes(コンテナ管理システム)を使用していましたが、複数のクラウドサービスやスーパーコンピュータを併用する開発体制において、どの環境からも一貫して利用できる汎用性が求められていたためです。この新しい仕組みでは、IAM認証(特定のユーザーやシステムにのみ操作権限を与える仕組み)を介した実行リクエストのみを受け付け、さらにVPC設定によってLambdaからの外向き通信を完全に遮断しています。これにより、万が一危険なコードが生成されても、社内システムやインターネットへの影響をゼロに抑えることに成功しました。
運用コストの面でも非常に優れており、AWSの無料枠を活用することで、月間数万件規模のベンチマーク実行を極めて安価に抑えています。また、Lambda特有の「リクエストサイズ制限(6MB)」という技術的障壁に対しても、送信データを圧縮してサンドボックス内で展開するというアプローチで克服しました。大規模な競技プログラミング問題のようにデータ量が多いケースでも、正確な評価を継続できる体制を整えています。こうした堅牢な評価基盤の構築は、AIの安全な社会実装を目指す上で、モデルの頭脳そのものを鍛えることと同等以上に重要なプロセスと言えるでしょう。