
写真 1 枚を 3 秒で 3D アセットに変換する AI が、オープンに公開されている。Microsoft Research、Microsoft AI、清華大などの研究者が開発した「TRELLIS.2」、4B パラメータの学習済みモデルが Hugging Face と GitHub で MIT ライセンス配布中、商用利用は要確認というのが結論だ。
数字は公式プロジェクトページと Hugging Face のモデルカードに揃っている。NVIDIA H100 基準で、512³ 解像度なら 約 3 秒、1024³ で約 17 秒、最高解像度の 1536³ でも約 60 秒で 1 アセットが上がる。512³ の内訳は形状 2 秒 + マテリアル 1 秒、というレベルの速度だ。
ここがポイントで、TRELLIS.2 は「O-Voxel(Omni-Voxel)」と呼ぶ独自のスパースボクセル表現を採用する。SDF や Flexicubes が前提にしてきた等値面(iso-surface)の制約を外したのが効いていて、開いたサーフェス、非多様体(non-manifold)のジオメトリ、内部空間を持つ閉構造まで、損失変換なしでそのまま 3D に落ちる。Base Color、Roughness、Metallic、Alpha まで持つ PBR マテリアルも同じ表現の中で扱う。葉っぱの薄さ、コップの内側、穴開きの服。フォトグラメトリやメッシュ生成系で詰まっていた苦手領域が、ひととおり通る、という話。
公開状況も派手だ。Hugging Face の microsoft/TRELLIS.2-4B で 800 件以上の Like が付き、派生 Space は 90 件超で動いている。ローカル推論には NVIDIA GPU 24GB 以上、Linux 限定、CUDA 12.4 推奨、という素朴なハードルは残っていて、ローカル実行は人を選ぶ。Hugging Face Spaces のデモは GPU を持っていない側の入口だ。
arXiv の paper(2512.14692)は 2025 年 12 月 16 日付。GitHub の最新コミットは 2026 年 1 月 10 日の Training Code 公開、で開発側のロードマップは一段落している。Known Limitations には「ベースモデルは人間の好みに合わせたアラインメントが入っていない」と明記されているので、商用本番に組むならポストアラインメント版を待つか、自前で SFT を回すかの判断が要る。次に出るとしたら、そこを埋めた整流版になるのかどうか。
TRELLIS.2 Project Page (Microsoft Research)