セレブラス・システムズ、世界初の脳規模の人工知能ソリューションを発表

テクノロジーのブレークスルーにより、単一のCS-2で120兆個のパラメータのトレーニングを実現し、最大1億6300万コアのクラスターで、ほぼリニアなスケーリング、プッシュボタン式のクラスター構築、前例のないスパース性の加速が可能に

August 24, 2021 03:00 PM Eastern Daylight Time

カリフォルニア州サニベール--(BUSINESS WIRE)--（ビジネスワイヤ） -- 人工知能（AI）の計算を加速するソリューションのパイオニアであるセレブラス・システムズは、本日、世界初の脳規模のAIソリューションを発表しました。　人間の脳には、100兆個のシナプスがあります。最大のAIハードウェア・クラスターは、人間の脳規模の1%のオーダー、つまりパラメータと呼ばれる約1兆個のシナプス程でした。人間の脳の数分の1の規模であるにもかかわらず、これらのグラフィックスプロセッサーのクラスターは、広大なスペースとメガワットの電力を消費し、運用には専門のチームが必要となります。

本日、セレブラスは、小型冷蔵庫ほどの大きさのCS-2アクセラレーター1台を、120兆を超えるパラメータサイズのモデルをサポート可能にする技術を発表いたします。セレブラスの新しい技術ポートフォリオには、業界をリードする4つのイノベーションが含まれています - 新しいソフトウェア実行アーキテクチャであるCerebras Weight Streaming、メモリ拡張技術であるCerebras MemoryX、高性能インターコネクト・ファブリック技術であるCerebras SwarmX、そしてダイナミックなスパース性の採取技術であるSelectable Sparsityです。

Cerebras Weight Streamingテクノロジーは、モデルのパラメータをオフチップに保存しながら、オンチップの場合と同等の学習・推論性能を実現することを初めて可能にしました。この新しい実行モデルでは、計算機とパラメータストレージが分離されているため、研究者は柔軟にサイズと速度を個別に調整することができ、小型プロセッサの大規模クラスターで問題となっていたレイテンシーやメモリ帯域幅の問題が解消されます。これにより、ワークロードの分散モデルが劇的に簡素化され、ユーザーはソフトウェアを変更することなく、CS-2を1台から最大192台まで拡張できるように設計されています。

Cerebras MemoryXは、メモリ拡張技術です。MemoryXは、第2世代のCerebras Wafer Scale Engine (WSE-2)に最大2.4ペタバイトの高性能メモリを提供し、そのすべてがオンチップであるかのように動作します。CS-2はMemoryXにより、120兆個のパラメータを持つモデルをサポートすることができます。

Cerebras SwarmXは、Cerebras Swarmのオンチップ・ファブリックをオフチップに拡張した、高性能でAIに最適化された通信ファブリックです。SwarmXは、Cerebrasが最大192台のCS-2にまたがって最大1億6300万個のAIに最適化されたコアを接続し、協調して1つのニューラルネットワークを学習できるように設計されています。

Selectable Sparsityは、ユーザーがモデルのウェイトスパースのレベルを選択することができ、FLOPsと解決までの時間を直接短縮することができます。重みのあるスパース性は、ML研究のエキサイティングな分野ですが、グラフィックス・プロセッシング・ユニットでは非常に効率が悪いため、これまで研究が困難でした。選択可能なスパース性により、CS-2は作業を高速化し、非構造化スパース性や動的ウェイトスパース性など、利用可能なあらゆるタイプのスパースを使用して、より短時間で解答を得ることができます。

これらの技術の組み合わせにより、ユーザーはブレインスケールのニューラルネットワークを解き放ち、AIに最適化されたコアの巨大なクラスターに作業を分散させることが、ボタン一つで簡単にできるようになります。これにより、セレブラスは、モデルサイズ、コンピュートクラスターの馬力、および大規模でシンプルなプログラミングの新たなベンチマークとなります。

Cerebras Systemsの共同設立者であるアンドリュー・フェルドマンは、「本日、セレブラスは可能な限り最大のネットワークのサイズを100倍にすることで、業界を前進させました」と述べ、さらに「GPT-3のような大規模なネットワークは、これまで想像もできなかったことを可能にし、自然言語処理（NLP）の状況をすでに変えています。GPT-3のような大規模なネットワークは、すでに自然言語処理（NLP）の分野に変革をもたらし、これまで想像もできなかったことを可能にしています。業界では、1兆個のパラメータを持つモデルが登場していますが、私たちはその境界を2桁拡大し、120兆個のパラメータを持つブレインスケールのニューラルネットワークを実現します」と、コメントしています。

アルゴンヌ国立研究所のアソシエイトディレクターであるリック・スティーブンスは、「ここ数年、NLPモデルでは、洞察力はパラメータに比例して大きくなり、パラメータが多いほど結果が良くなることがわかっています。パラメータの容量を100倍にするCerebrasの発明は、業界を一変させる可能性を秘めています。初めて脳の大きさのモデルを探索できるようになり、研究と洞察の広大な新しい道が開かれるでしょう」と、述べています。

Cambrian AI社の創業者兼主席アナリストであるカール・フロイントは、「AIの問題を解決するために大規模なクラスターを使用する際の最大の課題の一つは、特定のニューラルネットワークのためにクラスターを設定し、構成し、最適化するために必要な複雑さと時間です。Weight Streamingの実行モデルは、そのシンプルさが非常にエレガントで、CS-2クラスターの驚異的な計算リソースに、より根本的にわかりやすく作業を分散させることができます。CerebrasはWeight Streamingによって、巨大なクラスターの構築と効率的な使用に関して多くの人が直面している複雑さを解消し、変革の道を歩むことになると考えています」と、述べています。

Cerebras Weight Streaming: メモリとコンピュートの分離

Cerebras CS-2は、史上最大のチップであり、最速のAIプロセッサーであるWSE-2（Wafer Scale Engine）を搭載しています。AIのために作られた7nmベースのWSE-2は、AIコンピュートを飛躍的に向上させます。WSE-2は、2.6兆個のトランジスタと85万個のAIに最適化されたコアを備えた単一のウェハスケールチップです。これに対し、最大のグラフィックス・プロセッシング・ユニットのトランジスタ数は540億個で、WSE-2よりも2兆5,500億個少なくなっています。また、WSE-2は、対象グラフィック・プロセッシング・ユニットに比べて、123倍のコアと1,000倍の高性能オンチップ・メモリーを搭載しています。

Cerebras Weight Streamingは、WSEの巨大なサイズの基礎の上に構築されています。これは、計算機とパラメータストレージが互いに完全に分離された新しいソフトウェア実行モードです。小さなパラメータストアを、数千万のコアを搭載した多数のウェハとリンクさせたり、120兆のパラメータモデルを可能にする2.4ペタバイトのストレージを1台のCS-2に割り当てたりすることができます。

Weight Streamingでは、モデルの重みはオフチップの中央ストレージに保持され、ウェハ上にストリーミングされ、ニューラルネットワークの各層の計算に使用されます。ニューラルネットワークのトレーニングのデルタパスでは、勾配がウェハから中央のストレージにストリーミングされ、重みの更新に使用されます。

このWeight Streaming技術は、WSE-2のサイズ規模により、特にCerebrasアーキテクチャに有利に働きます。オンチップメモリが少ないために大規模なモデルを複数のチップに分割して配置する必要があるグラフィックス・プロセッシング・ユニットとは異なり、WSE-2は、従来のように大規模なレイヤーを分割するためのブロッキングやパーティショニングを行うことなく、非常に大きなサイズのレイヤーを搭載して実行することができます。つまり、各CS-2にはニューラルネットワークのワークロードマッピングが与えられ、クラスター内の他のCS-2とは無関係に、各レイヤーに対して同じ計算を行うことができるのです。このシンプルさにより、ユーザーはソフトウェアを変更することなく、モデルを1台のCS-2上で動作させていたものを、任意のサイズのクラスター上で動作させることができます。

Cerebras MemoryX: 数100億個のパラメータモデルを可能に

過去3年間で、最大のAIモデルのパラメータ数は3桁増加し、最大のモデルでは1兆個のパラメータを使用しています。人間の脳規模のモデルでは、100兆個のパラメータを使用するため、2ペタバイト規模のメモリが必要になります。

Cerebras MemoryXは、モデルのパラメータをオフチップに保存し、CS-2に効率的にストリーミングすることで、オンチップのようなパフォーマンスを実現するセントラルウェイトストレージの技術です。MemoryXには、ウェイトのストレージと、ウェイトの更新を正確にスケジュールして実行し、依存性のボトルネックを防ぐインテリジェンスの両方が含まれています。MemoryXのアーキテクチャは伸縮自在で、4TBから2.4PBまでの構成を可能にし、2,000億から120兆までのパラメータサイズをサポートするように設計されています。

Cerebras SwarmX：より大きく、より効率的なクラスターを提供

Cerebras SwarmXテクノロジーは、Cerebrasのオンチップ・ファブリックをオフチップに拡張することで、AIクラスターの境界を広げます。これまで、AIクラスターの規模が大きくなると、性能や電力面で大きなペナルティがありました。計算機用語では、性能は副次的に、電力とコストは超次的に拡大すると言います。クラスタにグラフィックスプロセッサを追加しても、問題解決への貢献度は低くなっていきました。

Cerebras SwarmXファブリックは、クラスターがほぼリニアなパフォーマンススケーリングを実現します。つまり、10台のCS-2が同じソリューションを1台のCS-2よりも10倍速く実現できることになります。SwarmXファブリックはMemoryXのリソースとは無関係にスケールし、1つのMemoryXユニットを任意の数のCS-2のターゲットとして使用できます。この完全分離モードでは、SwarmXファブリックは2台のCS-2システムから最大192システムまで拡張できるように設計されており、各CS-2が85万個のAIに最適化されたコアを提供するため、最大1億6300万個のAIに最適化されたコアのクラスターが可能になります。

Cerebras Sparsity: 回答までの時間を短縮するよりスマートな計算

Cerebrasはまた、解を見つけるために必要な計算量を減らし、回答までの時間を短縮する新しいアルゴリズムを可能にしています。スパース性は、計算をより効率的にするための最も強力な手段の1つです。人間の脳では、進化によってスパース性が選択されており、ニューロンは、すべてのニューロンが同時に発火しない「アクティベーションスパーシティ」と、すべてのシナプスが完全につながっているわけではないという「ウェイトスパーシティ」があります。人間が構築したニューラルネットワークは、すべてのニューロンが同時に発火しない様なアクティベーションスパーシティを持っていますが、非常に構造化された密度の高い形で指定されているため、過剰なパラメータ化が行われています。

スパース性の場合、前提は単純で、ゼロを掛けることは、特に時間と電気を消費する場合には良くないことです。しかし、グラフィックス・プロセッシング・ユニットでは、日常的にゼロを掛けています。ニューラルネットワークでは、スパース性にはさまざまな種類があります。スパース性は活性化にもパラメータにもあり、スパース性には構造化されたものも非構造化されたものもあります。大規模なモデルの学習コストが指数関数的に増加しているAIコミュニティでは，スパース性やその他のアルゴリズム技術を用いて，最先端の精度のモデルを学習するために必要な計算FLOP数を削減することがますます重要になっています。

Cerebras WSEは、きめ細かなデータフロー・アーキテクチャに基づいています。85万個のAIに最適化されたコンピュートコアは、ゼロがどのようなパターンで到着しても、個別にゼロを無視することができます。この選択可能なスパーシティハーベストは、他のアーキテクチャでは実現できないものです。Cerebrasアーキテクチャ特有のデータフロースケジューリングと膨大なメモリバンド幅により、このようなきめ細かな処理が可能となり、あらゆる形態のスパース性を加速することができます。その結果、CS-2はスパース性を選択してダイヤルすることで、特定のレベルのFLOP削減、つまり回答までの時間短縮を実現することができます。

大規模なAIクラスターをプッシュボタンで構成

大規模クラスターは、これまでセットアップや設定の難しさに悩まされてきました。実際のアプリケーションを実行できるようになるまで、十分な準備に数ヶ月かかることもしばしばです。ニューラルネットワークを大規模なGPUクラスターで動作させるための準備と最適化には、さらに時間がかかります。GPUクラスターで適切な利用率を達成するためには、モデルを分割して多数の小さな計算ユニットに分散させ、データ並列とモデル並列の両方のパーティションを管理し、メモリサイズとメモリ帯域幅の制約を管理し、同期オーバーヘッドに対処する必要があります。また、モデルの精度が低下する可能性があるため、極端なバッチサイズでも収束するようにハイパーパラメータやオプティマイザーを調整する必要があります。また、この作業はネットワークごとに繰り返す必要があります。

Weight Streaming、MemoryX、SwarmXの技術を結集することで、Cerebrasは大規模クラスタ構築のプロセスを押しボタン式のようにシンプルにします。Cerebrasのアプローチは、分散の複雑さをソフトウェアで覆い隠すことではありません。Cerebrasは代わりに、スケーリングの複雑さを完全に取り除く、根本的に異なるアーキテクチャを開発しました。WSE-2はサイズが大きいため、ニューラルネットワークのレイヤーを複数のCS-2に分割する必要はありません。現在の最大規模のネットワークレイヤーでも、1つのCS-2にマッピングできます。

グラフィックスプロセッサごとにニューラルネットワークの異なる部分を持つGPUクラスターとは異なり、Cerebrasクラスターの各CS-2は同じソフトウェア構成になります。CS-2を追加しても、作業の実行にはほとんど何の変化もないため、研究者にとっては、何十台ものCS-2でニューラルネットワークを実行しても、1台のシステムで実行するのと同じように見えます。クラスタのセットアップは、1台のマシンのワークロードをコンパイルして、同じマッピングを希望のクラスタサイズのすべてのマシンに適用するだけで簡単にできます。

Cerebras Weight Streamingテクノロジーは、大規模なCS-2システムのクラスター上でニューラルネットワークアプリケーションを、単一のグラフィックプロセッシングユニットのような簡単なプログラミングで実行することを可能にします。

その他詳細については、こちらをご参照下さい http://cerebras.net/product/.

セレブラスシステムズについて

Cerebras Systemsは、先駆的なコンピュータキテクト、コンピュータ科学者、ディープラーニング研究者、あらゆるタイプのエンジニアからなるチームです。我々は、人工知能の作業を現在の技術水準を超えて3桁の速さで加速させる新しいクラスのコンピュータを構築するために結集しました。CS-2は、現存する最速のAIコンピューターです。CS-2には、Cerebras Wafer Scale Engine (WSE-2)をはじめとする、業界初の技術が結集されています。WSE-2は、これまでに作られた中で最大のチップで、2.6兆個のトランジスタを搭載し、46,225平方ミリメートル以上のシリコンをカバーしています。市販されている最大のグラフィックプロセッサーは、540億個のトランジスタを持ち、815平方ミリメートルの面積を持っています。人工知能の分野では、大きなチップは情報をより速く処理し、より短時間で答えを出すことができます。その結果、WSE-2を搭載したCerebras CS-2では、これまで数ヶ月かかっていたニューラルネットワークの学習が数分でできるようになりました。

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。

Contacts

Press contact (for media only)
Kim Ziesemer
Email: pr@zmcommunications.com

Contacts

Contacts

Search