OpenMythosを触ってみたら新しいLLMじゃなかった話

OpenMythosを触ってみたら新しいLLMじゃなかった話——Recurrent-Depth Transformerという「思考の仕組み」

GitHub のトレンドで OpenMythos という名前を見かけて、最初は「また新しいオープンソースLLMか」と思って開いた。でも読んでいくうちに、これはモデルそのものじゃなくて、LLMに推論させる方法論の実装だとわかった。Claude Mythos という Anthropic のアーキテクチャ仮説を、公開論文から逆算して PyTorch で再現したプロジェクトだ。この記事では、OpenMythos が何をやろうとしているのか、その仕組みと使い方を自分なりに整理してみる。

Claude Mythos という仮説から始まった話

Anthropic が公式に発表したわけじゃないんだけど、「Claude の最新世代（Mythos）は Recurrent-Depth Transformer（RDT）ベースじゃないか」という推測がコミュニティで広まっていた。RDT とは要するに、Transformer の一部ブロックを複数回ループさせる構造のことで、「ループ回数 = 思考の深さ」みたいな感じで機能する。

Kye Gomez（当時22歳、Swarms フレームワークの作者）がこの仮説を公開論文ベースで実装したのが OpenMythos だ。リポジトリの説明には「A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature.」とある。あくまで推測に基づく再構成だけど、アーキテクチャの着眼点はかなり面白い。

RDT の仕組み——ループするたびに「考えが深まる」

通常の Transformer は入力を受け取って、レイヤーを一方向に通過させて出力を返す。対して RDT は、特定のブロックを 最大16回ループ させながら hidden state を更新し続ける。このループ1回が、Chain-of-Thought の「1ステップ」に相当するとされている。ただしトークンとして出力されるわけじゃなく、連続的な潜在空間（latent space）上での操作だ。

つまり「考える」という行為が、テキストを生成しながら行われるのではなく、モデル内部の表現空間で完結している。OpenMythos の README によれば、これによって Multi-step math や Long-horizon planning といった複雑なタスクを、明示的な Chain-of-Thought なしに処理できるらしい。

Prelude / Recurrent Block / Coda という3段構成

OpenMythos のアーキテクチャは大きく3つに分かれている。

Prelude: 標準的な Transformer ブロック。1回だけ実行される
Recurrent Block: ここが肝。最大16回ループしながら hidden state を更新する。MoE（Mixture of Experts）と MLA（Multi-head Latent Attention）、LTI-stable injection を組み合わせている
Coda: Prelude と同様に1回だけ実行される最終ブロック

Recurrent Block に ACT（Adaptive Computation Time）halting という機構も入っていて、問題の難易度によってループを早期終了させることもできる。簡単な問題には少ないループ、難しい問題には多くのループを使う、という計算量の動的配分だ。これ自体は Graves の2016年の論文で提案された手法なんだけど、LLM の推論に適用している点がポイント。

770M パラメータで 1.3B 相当の精度が出るらしい

MarkTechPost の記事によると、OpenMythos の 770M パラメータモデルが通常の 1.3B パラメータ Transformer と同等の品質に達したとされている。パラメータ数を約半分に抑えながら同じ精度というのは、なかなか実用的な数字だと思う。

ただ正直なところ、このベンチーマークがどの評価セットで測定されたのかまでは確認できていない。あくまでプロジェクトが主張している数値なので、鵜呑みにせずに自分で試してみるのが正しい態度だと思う。

実際にインストールして動かしてみた

PyPI に公開されているので、インストールは普通に pip でいける。

pip install open-mythos

最小構成で動かす場合はこんな感じ。

from open_mythos.main import OpenMythos, MythosConfig

config = MythosConfig(
    vocab_size=32000,
    dim=768,
    n_heads=12,
    max_loop_iters=16,
    n_experts=8,
    n_experts_per_tok=2,
)

model = OpenMythos(config)

max_loop_iters はトレーニング時のデフォルトループ回数（初期値16）で、推論時に n_loops を渡すことで変更できる。ループを増やすと推論が深くなる代わりに計算コストも上がる。n_experts と n_experts_per_tok は MoE の設定で、全エキスパートのうち指定した数だけをアクティベートするスパース活性化の仕組みだ。

自分が試した範囲では、学習済みウェイトは配布されていないので、実際に使い物になるモデルを作るにはファインチューニングが必要になる。リポジトリの training/ ディレクトリに FineWeb-Edu を使ったサンプルスクリプトがあって、3B パラメータ規模の学習コードが公開されている。

「モデルの大きさ」じゃなくて「考え方の設計」という視点

OpenMythos を触って感じたのは、LLM の性能向上の方向性として「パラメータを増やす」以外のアプローチが着実に育ってきているということだ。RDT はその一例で、同じパラメータ数でも推論ループの設計次第で質が変わるという考え方は、GPT 系のスケーリング則とは別の文脈にある。

Kye Gomez 自身がインタビューで「22歳でゼロから逆エンジニアリングした」と話しているらしく、Anthropic の非公開情報に依存せず公開論文だけで再構成したというのも面白い。実用レベルになるにはまだ先があると思うけど、アーキテクチャの実験場としては触ってみる価値はある。

まとめ

OpenMythos は新しい LLM モデルではなく、Recurrent-Depth Transformer という「思考の仕組み」の PyTorch 実装
Claude Mythos アーキテクチャの仮説を公開論文ベースで再構成したプロジェクト（2026年4月公開）
Transformer の特定ブロックをデフォルト16回ループさせ（推論時に変更可）、latent space での Chain-of-Thought を実現する
770M パラメータで 1.3B 相当の品質を主張。ACT halting による計算量の動的調整も特徴
pip install open-mythos でインストール可能。学習済みウェイトはなく、自前トレーニングが必要

なんでも技術ブログ

このブログを検索