
AIに長めの作業を任せたことがある人なら、たぶん一度は経験しているはずです。最初は調子よく進むのに、後半になると「さっき決めたはずのこと」を忘れて、つじつまが合わなくなる。今回 Z.ai(智譜)が公開したオープンモデル「GLM-5.2」は、まさにこの「長丁場で崩れる」問題に向けて作られた、と説明されています。
英語だと long-horizon tasks、つまり「ゴールまでが遠い仕事」。コードを書いて、テストして、直して、また書く——そういう何手も先まで続く作業のことですね。GLM-5.2は、実用で100万トークン(1M)という長い文脈を保てるのが土台で、その上で長丁場を走り切ることに振り切った設計になっている、とのことです。
これ、なかなか地味に効く話なんですよ。人間でも、長い作業の途中で当初のルールを見失うと、手戻りが一気に増えます。GLM-5.2が保ち続けようとしているのは、たとえばモジュールの境界、アーキテクチャ上の制約、APIの約束ごと(コントラクト)、ディレクトリ構造、それまでに下した決定——プロジェクトの「お作法」にあたる部分です。ここを後半まで覚えていられるかどうかで、長いタスクの成否が分かれる、というわけです。
仕組みの工夫も一つだけ紹介しておきます。「IndexShare」という方式で、文脈を見るための索引(indexer)を、4つの層ごとに同じものを使い回す。ざっくり言うと、長い本を読むのに各章で索引を作り直すのではなく、1冊分の索引を共有して読み進めるイメージです。これで100万トークン規模でも、1トークンあたりの計算量をおよそ2.9分の1に抑えられる、と説明されています。長文を扱うときの「重さ」を、構造から削りにいっている。
もう一つ、見落とせないのが公開のしかたです。GLM-5.2は重みをMITライセンスという、商用でも比較的自由に使える形で公開した、とされています(Z.ai はこれを「Pure Open」と表現しています)。Hugging Face や ModelScope で重みが公開され、ZCode、Claude Code、OpenCode などの開発環境からも使える、とのこと。公式比較では、FrontierSWE、PostTrainBench、SWE-Marathon といった長丁場コーディングのベンチマークで GPT-5.5 を上回る数字が示されています。推論の「力の入れ具合」も max と high の2段階から選べる設計です。
ちょっと立ち止まって考えると、限界も冷静に見ておきたいところです。ベンチマークの数字は条件で動きますし、「長丁場が得意」と「どんなタスクでも安定」はイコールではありません。総パラメータは Hugging Face のモデルカードで753Bと確認できますが、有効パラメータの値は公式本文で明記を見つけられませんでした。本番投入の前には、利用する実装側のモデル仕様まで当たるのが安全です。
で、何が変わるかというと——日本の開発現場にとっては、選択肢が一つ増えた、というのが実際のところです。重みが自由に使える形で出ているので、社内環境に載せて、自社のコード規約を守らせながら長い作業を任せる、という使い方が現実味を帯びます。AIに「単発の質問」ではなく「長い仕事」を預けられるか。その分かれ目を、オープンモデルが自分の手元で試せるようになってきた、という話です。
情報元: GLM-5.2: Built for Long-Horizon Tasks(Z.ai)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。