OpenMythosを触ってみたら新しいLLMじゃなかった話——Recurrent-Depth Transformerという「思考の仕組み」 GitHub のトレンドで OpenMythos という名前を見かけて、最初は「また新しいオープンソースLLMか」と思って開いた。でも読んでいくうちに、これはモデルそのものじゃなくて、LLMに推論させる 方法論の実装 だとわかった。Claude Mythos という Anthropic のアーキテクチャ仮説を、公開論文から逆算して PyTorch で再現したプロジェクトだ。この記事では、OpenMythos が何をやろうとしているのか、その仕組みと使い方を自分なりに整理してみる。 Claude Mythos という仮説から始まった話 Anthropic が公式に発表したわけじゃないんだけど、「Claude の最新世代(Mythos)は Recurrent-Depth Transformer(RDT)ベースじゃないか」という推測がコミュニティで広まっていた。RDT とは要するに、Transformer の一部ブロックを複数回ループさせる構造のことで、「ループ回数 = 思考の深さ」みたいな感じで機能する。 Kye Gomez(当時22歳、 Swarms フレームワークの作者)がこの仮説を公開論文ベースで実装したのが OpenMythos だ。リポジトリの説明には「A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature.」とある。あくまで推測に基づく再構成だけど、アーキテクチャの着眼点はかなり面白い。 RDT の仕組み——ループするたびに「考えが深まる」 通常の Transformer は入力を受け取って、レイヤーを一方向に通過させて出力を返す。対して RDT は、特定のブロックを 最大16回ループ させながら hidden state を更新し続ける。このループ1回が、Chain-of-Thought の「1ステップ」に相当するとされている。ただしトークンとして出力されるわけじゃなく、連続的な...
ただひたすらに、自分が思った技術情報をアップ書きなぐります。たまにメモみたいな物をあります。話題の事とかも。