2021年7月に公開されたばかりの、テスラの自動運転ソフトウェアの最新版に対し、様々な評価がなされている。同時に気になるのが、他社と異なり、レーザーを使わずカメラだけで自動運転を実現している技術だ。そこにはどのようなしくみがあるのか、ジャーナリストの田中茂氏が報告する。
テスラ・ウォッチャーズ・レポート(6)
テスラは、自動運転ソフトウェア「Full Self-Driving(FSD)ベータ版9」を予定より約3ヶ月遅れて7月に公開した。これを実際に使用したテスラのユーザーがネットを介してその性能について様々な評価が出始めている。
FSDは、テスラが販売するオプション機能の一つで、高速道路での自動追い越しや車線変更、駐車場出迎え機能などを提供する。ベータ版9では、車線のない道路でも運転支援が受けられ、加えて車内カメラによるドライバーの注意力監視機能も備わった。しかし、ビジョン形式というカメラだけの画像処理に頼る手法にその進化を疑問視する声も出ている。果たして現実はどうなっているのだろうか。
テスラはFSDを 2014年にオートパイロット機能として当時のモデルSに初めて導入し、翌年にはモデルXにも搭載を開始した。
当時はモービルアイという企業の方式を使用していたが2016年に提携を解消し、その後テスラの自社開発に乗り出した。これによりその中枢となるCPUもHW1.0から2.0、2.5、3.0へと進んでいく。
テスラの計画では、本来HW3.0で完全自動運転、いわばレベル5のFSDを達成する予定だった。しかし、開発を進めているうちにモービルアイの技術を元にして自社開発しているソフトウェアでは最終目標である完全自動運転が達成できないということが判明した。
そこでテスラは既存のFSDの再構築を決定し、その中で生まれたのがベータ版である。ベータ版の特性は、車内の搭載されているコンピュータで動くソフトウェアに加え、サーバーで管理しているニューラルネットと呼ばれるAIを可動させていることだ。これにより、カメラのだけでの自動運転が可能になった。
FSDの仕組みを簡単に説明すると、テスラでは、合計8個のビジョンカメラや各種センサーで車の動きを解釈できるようになっている。これにより、現在の道路の状況や車の挙動、ドライバーがハンドルに触れている場所などの情報を収集し、学習していく。
基本的なアプローチは模倣学習だ。世界中にある何百万台ものテスラを一つの集合体として捉え、各ドライバーが運転中どのように反応しているかを学ぶアルゴリズムを稼働させ、人や道路標識など運転時に気をつけなければならない物体を正確に認識できるように進化させていく。
そのためには、次の動きを理解して予測する。歩行者やオートバイが次にどう動こうとしているかを予測し、これに基づき自分の計画をたてて、自分のルートを計画していく。
ただ、このようなアルゴリズムのトレーニングのためには、データに意味を与えてラベリングする必要がある。この作業は現在ラベラーと呼ばれる人により手作業で行われている。
だが、ベータ版以降はこのラベリング作業をテスラで開発したAI(Dojo)が行うようになった。Dojoでは、時間の要素を含む4D動画から得られるデータを自動でラベル付けをしていくのだが、そこで使用されるのが、機械学習に特化したニューラルネットで、行列計算を高速処理できるように設計されている。
特性はユニットを構成するCPUやGPUよりも消費電力が低いこと。そして処理の際にスパース行列の処理を得意としていることだ。
スパース行列は、ゼロが多く含まれる特性をもち、実際はフレームごとにほとんど変化をしない画像処理には大きな効果を発揮する。Dojoの導入により一つのデータセットを解決するのに3日かかったのが、同じデータセットを7時間で解決できるようになるという。
ベンチャー企業やウェブをまとめているTech Crunchでは、スーパーコンピュータの学会である「Computer Vision and Pattern Recognition」でテスラのアンドレー・カルパシー・AI担当シニアディレクターが、同社が自動運転を学習するために使用しているDojoのスペックについて語った内容を公表している(上動画)。
これによると、カルパシー氏は、Dojoについて、「8基のNVIDIA A100 Tensor コア GPUで構成され、その中には、合計5,760基のGPUが使用されており、コンピュータの性能を測るベンチマークとなるフロップスは1.8エクサフロップスで世界5位の位置にある」と述べたという。
自動運転の学習にともないこれまでテスラでは、世界中で約100万台ともいわれるテスラユーザーの走行をすべて認識し、走行予測と異なった操作をドライバーが行ったらすべてログに記録してきた。そしてこの蓄積は36フレーム/秒(fps)で記録された10秒間の動画データで換算しておよそ100万点、1.5ペタバイトに上るという。
他社と異なりビジョン形式に特化した道を選んだテスラの選択は今のところ順調な動き出しを見せているといえそうだ。
*EnergyShiftの「テスラ」関連記事はこちら。
モビリティの最新記事