share_log

Cerebras Triples Its Industry-Leading Inference Performance, Setting New All Time Record

Cerebrasは、業界をリードする推論パフォーマンスを3倍にし、新しい歴史的記録を樹立しました。

Businesswire ·  10/24 23:00

Cerebras Inferenceは、最速のGPUの16倍の性能と、ハイスケールクラウドよりも68倍高速な2,100トークン/秒をLlama 32億700億で提供します。

カリフォルニア州サニーベール--(BUSINESS WIRE)--本日、高性能AIコンピューティングのパイオニアであるCerebras Systemsは、前回の推論業界記録を打ち破り、Llama 3.2 700億で2,100トークン/秒のパフォーマンスを提供しました。これは、既知のGPUソリューションの16倍速く、第三者のベンチマーキング組織である人工解析によって計測されたハイスケールクラウドよりも68倍速いです。さらに、Cerebras Inferenceは、Llama 700億に対してGPUがLlama 30億を提供する速さの8倍以上高速で、集計では184倍の利点 (モデルが23倍大きい際に8倍速い) を提供しています。大規模モデル用のインスタント推論を提供することで、Cerebrasはリアルタイムでより高品質なレスポンス、思考の連鎖推論、より多くの相互作用、およびユーザーエンゲージメントが高まるAIの新しいユースケースを開拓しています。



"世界最速のAI推論がさらに高速化しました。グラフィックス処理ユニットは、性能を3倍にするには新しいハードウェア世代---2〜3年---が必要です。私たちはソフトウェアリリース1回でそれを実現しました。"とCerebrasのCEO兼共同創業者のアンドリュー・フェルドマン氏は述べています。"早期採用企業とAI開発者は、GPUベースのソリューションでは実現不可能だった強力なAIユースケースを作成しています。Cerebras Inferenceは、次世代のAIイノベーションのための新しいコンピュート基盤を提供しています。"

グラクソ・スミスクライン(GSK)などの世界的な製薬大手からAudivi、Tavus、Vellum、LiveKitなどのパイオニア的なスタートアップまで、CerebrasはAIアプリケーションの遅延を60倍高速化しています。

  • GSK:「Cerebrasの推論速度により、GSKは研究者と医薬品探索プロセスの生産性を根本的に向上させるようなインテリジェントな研究エージェントなど、革新的なAIアプリケーションを開発しています」とGSKのAIおよびMLシニアバイスプレジデントのキム・ブランソン氏は述べています。
  • LiveKit:「音声AIを構築する際、推論はパイプライン内の最も遅い段階です。Cerebras Inferenceを使用すると、これが最速になります。クラウドベースの音声テキスト変換、Cerebras Inferenceを使用した700億個のパラメーター推論、およびテキスト読み上げを含むパイプライン全体の通過は、他のプロバイダの推論単独よりも速く実行されます。これは、ヒトレベルの速度と精度で応答できる音声AIを構築する開発者にとって画期的な変化です。」とLiveKitのCEOラス・ヴィーサ氏は述べています。
  • Audivi AI:"リアルタイムの音声インタラクションでは、ミリ秒単位でシームレスで人間らしい体験を創造することが重要です。Cerebrasの高速推論機能により、当社は顧客に即座の音声インタラクションを提供することができ、エンゲージメントを高め、期待されるROIをもたらします。」とAudivi AIのCEO、セス・シーゲルは述べています。
  • Tavus:「私たちはトップクラスのgpuソリューションからCerebrasに移行し、エンドユーザーの待機時間を75%削減しました。」とTavusのCEO、ハサン・ラザは述べています。
  • Vellum:「当社の顧客はその結果に驚かれています!Cerebras上の完了時間は、他の推論プロバイダーよりもずば抜けて早く、Cerebras推論プラットフォームを介して可能にする製品アプリケーションに期待しています。」とVellumのCEO、アカシュ・シャルマは述べています。

Cerebrasは、llamapalooza NYCでllamaコミュニティを集める開発者イベントを開催します。メタ、Hugging Face、LiveKit、Vellum、LaunchDarkly、Val.town、Haize Labs、Crew AI、Cloudflare、South Park Commons、およびSlingshotからのトークが予定されています。

Cerebras推論はCerebrasのCS-3システムと業界をリードするAIプロセッサ、Wafer Scale Engine 3(WSE-3)によって動作しています。速度と容量の間で取引を行わせるgpuに対し、CS-3はユーザーごとの最高クラスのパフォーマンスを提供しながら、高いスループットを実現しています。WSE-3の大きなサイズにより、多くの同時ユーザーが驚くほどの速度を利用できます。Nvidia H100よりも7,000倍のメモリバンド幅を持つWSE-3は、Generative AIの根本的な技術的課題であるメモリバンド幅を解決します。開発者はCerebras推論APIに簡単にアクセスでき、OpenAI Chat Completions APIと完全に互換性があり、わずか数行のコードで移行をシームレスに実行できます。

Cerebras推論は、ハイパースケールやGPUクラウドの一部のコストで利用できます。今すぐCerebras推論をお試しください。

Cerebras Systemsについて

Cerebras Systemsは、先駆的なコンピュータアーキテクト、コンピュータサイエンティスト、深層学習研究者、およびさまざまなエンジニアからなるチームです。私たちは、AIを加速させるために、新しいクラスのAIスーパーコンピューターをゼロから構築することに取り組みました。当社の看板製品であるCS-3システムは、世界最大かつ最速のAIプロセッサである当社のWafer-Scale Engine-3によって動作します。CS-3は簡単かつ迅速にクラスター化でき、世界最大のAIスーパーコンピューターを作成し、分散コンピューティングの複雑さを回避することでモデルの配置を簡素化します。Wafer-Scale Engine 3によるCerebras推論は、画期的な推論速度を提供し、顧客が最先端のAIアプリケーションを作成できるよう支援します。世界の大手企業、研究機関、政府機関は、画期的なプロプライエタリモデルの開発および数百万回のダウンロードを誇るオープンソースモデルのトレーニングにCerebrasソリューションを使用しています。Cerebrasソリューションは、Cerebras Cloudおよびオンプレミスで提供されています。詳細については、ウェブサイトをご覧いただくか、LinkedInまたはXでフォローしてください。


連絡先

プレス連絡先:
PR@zmcommunications.com

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする