XI5

テンセントのAI「JueWu」は、「Honor of Kings」をプレイするだけでは満足せず、今ではワールドサッカーチャンピオンシップでも優勝した。

12月30日、テンセントは、自社のAI搭載サッカーチームがGoogle Football Kaggleコンペティションで初優勝したと発表しました。優勝チームは、テンセントAIラボのWeKickバージョンで、世界のトップチームを相手に合計スコア1785.8という素晴らしい勝利を収めました。

今年11月下旬、テンセントAIラボとHonor of Kingsが共同開発した戦略的協業AI「JueWu」が完全版にアップグレードされ、全ヒーローの全スキルを習得した初のAIとなりました。JueWu WeKick版の全体設計はJueWu完全版をベースに、サッカータスクに特化した調整が加えられており、JueWu AIを支える深層強化学習手法の総合的な能力を実証しています。

Kaggle Google Football リーダーボード トップ 10

2010年に設立されたKaggleは、世界最大のデータサイエンスコミュニティであり、データサイエンスのコンペティションプラットフォームです。このサッカーAIコンペティションは、Google Researchとマンチェスター・シティFCがKaggleプラットフォーム上で共同で開催しました。

サッカーにおけるチーム戦略は、その複雑さ、多様性、そして高い難易度ゆえに、長年にわたり世界中のトップAI研究チームを悩ませてきた難題でした。MOBAゲームよりもインセンティブが乏しいゲームであることも、この課題をさらに困難なものにしています。今年、KaggleはサッカーAIに特化した初のコンペティションを開催し、深層強化学習マルチエージェント技術の競争とベンチマークのための新たなプラットフォームを提供しました。

このコンテストは、Google Research Footballの強化学習環境を活用し、オープンソースのサッカーゲーム「Gameplay Football」をベースにしています。11対11の形式で、参加チームは1つのエージェントと10個の組み込みエージェントを操作してチームを編成し、チャレンジと楽しさを融合させています。開始時には、世界中の一流大学や研究機関から1100を超えるトップレベルの研究チームが参加しました。

「11個の強化学習エージェント間の協力と競争」

Google Football(Kaggleで公開)は、人気サッカーゲームをモデルにしており、AI制御のFIFAゲームに似ています。AIエージェントがサッカーチームの選手1人または全員を操作し、パス回しを学習し、相手のディフェンスを突破してゴールを決めようとします。ルールは通常のサッカーの試合と同様で、ボールを相手ゴールに蹴り込むという目的や、オフサイド、イエローカード、レッドカードに関するルールなどが含まれます。

一般的なサッカービデオゲームのようにNPCがチームを統率するのとは異なり、このKaggleコンペティションでは、各プレイヤーは個別のAIエージェントによって操作されます。参加AIモデルは、試合状況に応じてこれらのエージェントの1つを制御し、他の10個の組み込みエージェントと連携します。そのため、各プレイヤーは対戦相手の行動を観察するだけでなく、チームメイトにも注意を払う必要があり、非常に複雑なチームワークと競争戦略が求められます。

WeKick(黄色のジャージ)とSaltyFish(この大会で2位)の最近の試合 - 彼らのゲーム(シューティング)のハイライト映像。

例えば、相手選手がボールを保持している場合、その選手のAIエージェントは、フィールドの両サイドの選手の配置に基づいて選手の次の動きを予測するだけでなく、他の選手と連携してボールを合法的に奪還する方法を検討する必要があります。さらに、フィールド上の状況は急速に変化するため、高速かつリアルタイムの意思決定能力も不可欠です。

さらに、強化学習を用いて完全なサッカーAIをゼロから学習させるのは、実際には非常に困難です。経済力、体力、経験値といったリアルタイムの学習シグナルを持つMOBAゲームとは異なり、サッカーゲームのインセンティブは非常にスパースで、ほぼ完全にゴール獲得に依存しています。スパースなインセンティブは、強化学習において常に大きな課題となってきました。

JueWu AI はどのようにしてチャンピオンになったのか

Atari ゲームから囲碁、さまざまなビデオゲームに至るまで、ゲーム分野における深層強化学習の急速な発展のおかげで、AI エージェントは継続的な反復と進化を通じてますます強力になり、サッカーにおけるチーム戦略の課題も克服されました。

JueWu WeKickバージョンでは、まず強化学習とセルフプレイを用いてモデルをゼロから学習し、非同期分散強化学習フレームワークを導入しました。この非同期アーキテクチャは学習フェーズにおけるリアルタイム性能を若干犠牲にしましたが、柔軟性を大幅に向上させ、学習中のコンピューティングリソースのオンデマンド調整もサポートすることで、11エージェントのサッカーゲームの学習環境に適応できるようになりました。

MOBAとサッカーゲームのミッション目標の違いを踏まえ、JueWu WeKickバージョンでは、生成的敵対学習(GAIL)と手動で設計された報酬を組み合わせ、機能と報酬の設計を拡張・革新しています。このアプローチでは、生成的敵対学習メカニズムを用いてエキスパートの行動状態と行動分布を適合させ、JueWu WeKickバージョンが他のチームから学習できるようにします。その後、GAILで学習されたモデルを固定の対戦相手として用いて、さらなる自己ゲーム学習を行うことで、戦略の堅牢性をさらに向上させます。

GAILの利点(WeKickの報酬設計は、報酬シェーピングとGAILスキームを組み合わせたものです)

しかし、自己ゲーム強化学習によって得られるこの種のモデルには、単一のスタイルに収束しやすいという固有の欠点があります。実際の競技においては、特定のプレイスタイルへの不慣れさから単一スタイルのモデルはパフォーマンスが低下しやすく、最終的には悪い結果につながります。そのため、JueWuは、戦略の多様性と堅牢性を向上させるために、マルチエージェント学習タスクにリーグ(複数のポリシープール)によるマルチスタイル強化学習トレーニングスキームも採用しました。

このリーグのマルチスタイル強化学習トレーニング プログラムの主なプロセスは、特化とそれに続く統合として簡単に要約できます。

まず、ドリブルで相手を抜く、パスと連携、シュートで得点するなど、ある程度の競技能力を持つ基本モデルをトレーニングします。次に、基本モデルをベースに、それぞれ特定のプレースタイルに焦点を当てた複数の様式化モデルをトレーニングします。様式化モデルのトレーニング中は、特定のスタイルに固執しすぎて基本能力が失われるのを防ぐため、定期的にメインモデルを対戦相手として追加します。最後に、複数の基本モデルをベースにメインモデルをトレーニングします。メインモデルは、自身の過去のモデルを対戦相手として使用するだけでなく、すべての様式化された対戦相手からも定期的に対戦相手として追加され、メインモデルが全く異なるスタイルの対戦相手にも適応できるようにします。

内部能力スコアリング システムによれば、メイン モデルは対戦相手のプールでトレーニングした後、基本モデルを基準に 200 ポイント向上でき、最強の様式化されたプレイスタイルよりも 80 ポイント高くなります。

最終的に、JueWu の完全なアーキテクチャ移行、カスタマイズされたフレームワークの改善、主要な生成的敵対的学習 (GAIL) スキームとリーグ (複数のポリシー プール) のマルチスタイル強化学習トレーニング スキームに基づいて、JueWu は他の競合 AI チームに対して優位性を獲得し、最終的にチャンピオンシップの勝利に至りました。

WeKick(イエロージャージ)とSaltyFish(この大会2位)の最近の試合 – パスの連続。

WeKick版JueWuの勝利は、JueWuの完全なアップグレード後、その基盤となる深層強化学習ソリューションが、複雑なサッカー競技シナリオに適応できるAIモデルを学習したことを意味します。これは、Tencent AI Labの最先端AI技術における研究開発力の高さを示すとともに、Tencent JueWuの基盤となるAIアーキテクチャと手法の普遍性を実証するものです。

JueWuチームの研究方向は、サッカーの試合で単一のエージェントを制御することから、11人のエージェントを同時に制御・調整することへと移行していると理解されています。サッカーの試合で完全に独立したエージェントの数が11に達すると、強化学習の難易度はエージェント数の増加とともに指数関数的に増加します。同時に、サッカーエージェント間の違いは大きくなく、異なる役割間の役割分担とインセンティブ配分をどのように自動的に形成するかは、マルチエージェント強化において常に課題となっています。以前の5v5(マルチエージェント)Google Research Football Leagueでも、テンセントのJueWuチームが優勝し、JueWu AIの大きな可能性を示しました。

囲碁AI FineArtからMOBAゲームAI JueWu、そしてAIサッカーチームWeKickまで、テンセントAIラボの深層強化学習エージェントは着実に進化し、より複雑で多様な問題へと徐々に移行しています。テンセントは、汎用人工知能という究極の目標に向けて着実に前進しています。長期的には、JueWuの研究開発経験とアルゴリズムの蓄積は、農業、ヘルスケア、スマートシティなど、幅広い分野とAIの融合においても大きな可能性を示し、より大きな実用価値を生み出すでしょう。