🕛 2026.6.23

550Bのうち動くのは55Bだけ。NVIDIAが『必要な専門家だけ呼ぶ』オープンAIを公開

巨大な AI モデルなのに、動かすときは一部しか使わない——そんなモデルが、重みごと公開されました。NVIDIA が出した「Nemotron 3 Ultra」です。総パラメータは550B(5500億)あるのに、1回の処理 […]
🕛 2026.6.23

オープンモデルが、また一段上へ。MiniMax M3は画像・動画ネイティブでSWE-Bench Pro 59%

オープンモデルの底上げが止まらない。MiniMax が新モデル「M3」を、重みごと公開した。中国発のオープン勢が、また一段、上のラインに来たという話。 数字を見よう。総パラメータは約428B(4280億)。ただし1回の処 […]
🕛 2026.6.20

『即答する1兆』と『じっくり考える1兆』、モデル重みを公開。中国発AIが二刀流で来た

巨大なAIモデルの話は、たいてい「どこそこが新しい最強モデルを出した、ただし使えるのはAPI越し」で終わる。今回はそこが少し違っていて、1兆パラメータ級のモデルを、しかも2種類、重み(モデルの中身そのもの)ごと配ってきた […]
🕛 2026.6.20

AIの『考えすぎ』を、走りながら間引く。推論を短くしても正答を保てるか、という実験

結論から言うと、これは派手さはないが、毎月の請求書に効いてくるタイプの研究だ。推論型のAI——答える前に頭の中で長く考えるタイプのモデル——が抱える「考えすぎ」を、どう抑えるか、という話です。 6 月 16 日に arX […]
🕛 2026.6.20

AI主導の自動ラボが約1万反応を検証。薬のもとの『作りにくい反応』を改善

新しい薬が私たちの手元に届くまで、その裏側でどれだけの試行錯誤が積まれているか、ふだんはあまり想像しませんよね。今日はその試行錯誤の一部を、AI主導の自動ラボが大規模に回した、という話です。 OpenAI と創薬向け A […]
🕛 2026.6.20

生命科学の実務750題、専門AIでも評価スコア36.1%。数字で見えた現在地

数字を見よう。生命科学の実務をどこまでこなせるか、AIに750題を解かせた。専門家ルーブリックによる評価スコアは、GPT-Rosalindで36.1%。これが今の現在地だ。 OpenAI が LifeSciBench と […]
🕛 2026.6.20

AIに『本番前のリハーサル』をさせる。過去130万件の会話で、公開前のふるまいを読む試み

ふと考えてしまうんですが、新しい道具を世に出す前に、人はどうやって「だいじょうぶ」を確かめてきたんでしょうか。舞台なら本番前のリハーサル、料理なら味見。では、毎日何千万人と話す AI の場合は——という問いに、ひとつの答 […]
🕛 2026.6.16

AIに『自分でメモを取らせる』。長考を要約させたら賢くなって18.6%短くなった話

ふと考えてしまうんですが、人が長く考え込むほど良い答えにたどり着くかというと、必ずしもそうではないですよね。途中で論点を見失ったり、最初の思い違いを引きずったまま遠くへ行ってしまったり。今の「考えるタイプ」の AI も、 […]
🕛 2026.6.11

NVIDIAが550Bの『Nemotron 3 Ultra』公開。重みも学習レシピも全部置いた

「太っ腹」という言葉の使いどころを、久しぶりに見た気がします。 NVIDIA Research が 6 月 4 日、同社最大のオープンモデル「Nemotron 3 Ultra」を公開しました。総パラメータ 5,500 億 […]
🕛 2026.6.9

AIは採点される前から、自分の点を知っている。160例で引き出す『品質の勘』

ふと考えてしまうんですが、答案を出す前から「先生はこれをどう採点するか」を察している生徒がいたら、少し不思議な気持ちになりませんか。 arXiv に出た「Self-Evaluation Is Already There」 […]