コンテンツにスキップ

Home

エンタープライズLLM「Takane」と生成AI再構成
大規模言語モデルの軽量化・省電力を実現するAI軽量化技術である生成AI再構成技術を用いて当社のLLM「Takane」を強化します。本技術は、AIの思考の基となる各ニューロン間の結合に割り当てられる重みを極限まで圧縮する世界最高精度の量子化技術と、軽量化と元のAIモデルを超える精度を両立させた世界初の特化型AI蒸留技術の2つのコア技術からなります。

量子化技術

(slide 9)

量子化は通常16bitや32bitで表現されるデータを8bitや4bitで表現することでメモリ消費量を削減する技術ですが、これまで1bitの極端な量子化は不可能と考えられてきました。

(slide 11)

大規模言語モデル(LLM)のような深層ニューラルネットワークでは入力データが多くの層を経ることで処理されて高い思考力を発揮することができます。

(slide 12)

一方で、ビット数を落とすと各層の積み方にずれが生じて精度が崩壊します。サンプルデータを用いて目標位置をあらかじめ決めておき、前層までの全体のずれ量を見て打ち消すように置く目標位置を決めておく(QEP:誤差伝搬法)。さらにデジタルアニーラで培った大規模離散最適化技術(QQA:Quasi-Quantum Annealing)を用いて世界最高性能の1bit量子化を実現しました。

特化型AI蒸留技術

(slide 10)

特化型蒸留は、脳が必要な知識を強化し、不要な記憶を整理するように、AIモデルの構造を最適化します。まず基盤となるAIモデルに対し、不要な知識を削ぎ落とすPruning(枝刈り)や、新たな能力を付与するTransformerブロックの追加などを行い、多様な構造を持つモデル候補群を生成します。次に、これらの候補の中から、当社独自のProxy(代理評価)技術を用いたNeural Architecture Search(NAS)により、顧客の要望(GPUリソース、速度)と精度のバランスが取れた最適なモデルを自動で選定します。最後に、選定された構造を持つモデルに、「Takane」などの教師モデルから知識を蒸留します。この独自のアプローチにより、単なる圧縮に留まらず、特化したタスクでは基盤の生成AIモデルを上回る精度を達成します。

エンタープライズLLM「Takane」と生成AI再構成がもたらす価値

  1. 大幅なメモリ消費量の削減
    • スマートフォンや工場の機械といったエッジデバイス上でのAIエージェントの実行を実現
    • 高性能GPUが1枚必要なLLMを低性能GPU1枚で実行することを可能にし計算コストを大幅削減
  2. 特化型AI構築による大幅な性能向上
    • 教師モデルの100分の1のパラメータサイズの生徒モデルで、教師モデルを上回る精度を達成
    • 必要なGPUメモリ使用量と運用コストを70%削減

技術概要

ターゲット業界・ユーザー

量子化技術

  • オンプレミスやエッジ環境でLLMを用いるユーザー

特化型AI蒸留技術

  • LLMを活用してハイコンテキスト情報を処理し、意思決定支援を提供したいと考えているユーザー

ターゲット業界・業務の課題

量子化技術

  • LLMを用いるにあたり消費電力やGPUにかかるコストが大きすぎたり、エッジ利用のために小型のGPUが必要

特化型AI蒸留技術

  • 実ビジネスにおける様々な課題解決の場面でLLMの利用可能性は広がっているものの、大半のユーザーは大規模なLLMの利用コストの高さや処理速度の遅さなど、モデルの大規模性に課題

技術課題

量子化技術

  • これまでの量子化ではLLMのような層が多いニューラルネットワークにおいて、量子化誤差が指数関数的に蓄積することが課題であり、4bit量子化までしか性能を維持するが不可能

特化型AI蒸留技術

  • 生成AIモデルの大規模化は、開発・運用コストの増加、大規模な電力消費による環境への深刻な影響、エッジデバイスでの大規模なLLMの効率的な実行など、社会的実装に差し迫った課題が存在

Takaneのための生成AI再構成技術がもたらす価値(詳細)

量子化技術

  • 例えば、量子化前では高性能GPU4枚、他社技術の4bit量子化では高性能GPUが1枚必要なLLMを低性能GPU1枚で実行することが可能。消費電力・コスト面で有利であり、さらにスマートスピーカー等への展開も期待

特化型AI蒸留技術

  • 提案した特化型AI蒸留手法を用いた軽量モデルにおいて、商談受注額予測において以下の性能

  • 必要なGPUメモリ使用量と運用コストを70%削減

  • 商談受注額予測の信頼性向上

富士通の技術優位性

量子化技術

  • 1bit量子化で性能維持率89%・速度向上3倍は世界一の性能であり、他社手法の性能は50%以下

特化型AI蒸留技術

  • 多様な顧客向けにドメイン特化型の軽量LLMを高い効率で開発することに焦点

利用シーン

量子化技術

  • アプリ開発者
    • LLMを実行するGPUのコストや消費電力を低減したい場合、スマートスピーカー等のエッジデバイス向けのLLM開発を行いたい場合

特化型AI蒸留技術

  • エンドユーザー

    • 利用者がLLMを用いて特定のドメインタスクを処理したい状況。例えば、商談受注額予測のためのハイコンテキスト情報の処理
  • アプリ開発者

    • 顧客向けに特化したモデル生成を行う際や、顧客自身がモデルの軽量化を行うための基盤環境を構築する際に利用可能

事例・ユースケース

  • 未公開

技術お試し

関連情報

ドキュメント

資料名 説明
Hugging Face公開情報 Hugging Face上のモデルカード