
米Googleは5月5日(現地時間)、オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。
仕事に役立つIT関連の最新ニュース

米Googleは5月5日(現地時間)、オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。