
LG AI研究院がEXAONE 4.5というマルチモーダルモデルをオープンウェイトで公開しました。気になるスペックなんですが、これで、なかなかコンパクトなモデルになってるんですよ。33Bパラメータということで、これは前世代のK-EXAONEと比較すると1/7のサイズ。でも単に「軽い」ってだけじゃなくて、ビジョンエンコーダも1.2Bパラメータに最適化されてるんです。つまり、限られたリソースで運用できるマルチモーダルモデルとして設計されてるってことですね。
Hugging Faceでの公開というのも重要な要素です。オープンウェイト・モデルだから、研究者も開発者も、自由にダウンロードして自分の環境で運用できる。これまでは大規模言語モデルの開発競争って、OpenAIやGoogleといった大手がAPIで提供するクローズドなものが中心だったんですが、韓国のLGがオープンなアプローチで競争に割り込んでくるのは、市場の多様化を示していますね。
個人的に刺さったのは、ベンチマーク性能の話。LGの主張によると、OpenAIやGoogleのモデルを上回るパフォーマンスを実現してるんだそう。これがホントなら、33Bサイズでここまでのクオリティを実現できるっていうのは、ファインチューニングやインストラクション・チューニングの効果が大きいってことなんでしょう。実際のユースケースでどこまで通用するのか、テストが気になりますね。
多言語対応も見逃せません。韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語という6言語に対応してるんです。特に日本語が最初から入ってるっていうのは、アジア市場への本気度がわかるというか。従来のLLMって英語中心の学習になりやすいんですけど、ちゃんと非英語圏の言語もカバーしてるってのは、ローカライズ戦略として優れてるなって思うんですよ。
ビジネス文書、技術ドキュメント、金融資料といった実務系のコンテンツを読み込んで分析する能力があるということなので、エンタープライズユースにも適してる。個人的には、ハイブリッド注意メカニズムというアーキテクチャの工夫が、計算効率とモデル性能を両立させてるんだと思われます。つまり、単に「パラメータを減らした」んじゃなくて、「効率的なアーキテクチャで同じレベルの性能を実現した」ってことですね。
で、何が変わるかというと、LGが韓国の人型ロボット開発プロジェクト「KAPEX」のAI基盤として、このEXAONE 4.5を組み込もうとしてるってことなんです。ロボットが複雑な文書を読んだり、顔を認識したり、複数の情報源を統合して意思決定するっていうシーンで、このマルチモーダルモデルが活躍することになるんでしょう。そこまで到達すれば、EXAONE 4.5が出たら即レビューしたいですね。
Hugging Face: https://huggingface.co/LGAI-EXAONE/EXAONE-4.5-33B