Mac vs NVIDIA：ローカルLLMを動かすならどっち？GPU徹底比較ガイド

01. はじめに

「これからローカルLLMを始めたいけど、どんなPCを買えばいいの？」これはエンジニアにとって永遠の悩みです。昔ならば「Deep Learning = NVIDIA一択」でしたが、Generative AIの時代になり、その勢力図は大きく変わりつつあります。

特にApple Silicon（Mシリーズチップ）の登場は革命的でした。Ollamaの開発も、実はMacでの利用を強く意識して進められています。本記事では、MacとWindows(NVIDIA)の両方で開発を行っている筆者の視点から、それぞれのメリット・デメリットを公平に比較し、あなたの用途に合ったマシンの選び方を提案します。

02. Apple Silicon (M1/M2/M3) の強み

Unified Memory

Mac最大の特徴は、CPUとGPUがメモリを共有する「ユニファイドメモリアーキテクチャ」です。

通常のGPU（VRAM）は最高でも24GB（RTX 4090）程度しか積めませんが、Macならメモリを128GBまで増設すれば、その大半をVRAMとしてAIに割り当てることができます。これにより、70Bパラメータのような超巨大モデルでも、ゲーミングPCでは絶対に不可能な「全層GPUオフロード」が可能になります。

メリット: 巨大モデルが動く。消費電力が驚くほど少ない。ファンが回らない。
デメリット: 推論速度自体はNVIDIAのハイエンドより遅い。

03. NVIDIA GPU (CUDA) の強み

AI業界の標準規格である「CUDA」が使えること、これに尽きます。ほぼ全てのAIライブラリはNVIDIA GPUで動くことを前提に作られているため、互換性のトラブルが皆無です。

また、Tensor Coreを搭載したRTX 4090などは、計算速度において圧倒的です。Mac Studio (M2 Ultra) が秒間30トークン出す処理を、RTX 4090なら秒間100トークン以上で処理できることもザラです。

メリット: とにかく速い。学習（Fine-tuning）も高速。
デメリット: VRAM容量の壁（24GB）がある。消費電力と発熱が凄い。

04. コスパ最強は「Macのユニファイドメモリ」

もしあなたが「チャットや推論メイン」で、「70Bクラスの賢いモデルを動かしたい」なら、メモリを増設したMac StudioやMacBook Proがコストパフォーマンス最強です。

RTX 4090を2枚刺し（VRAM 48GB）する構成は、電源や冷却を含めると50〜60万円コースになりますが、Mac Studio (64GBメモリ) なら30万円台から現実的な選択肢に入ります。セットアップも箱から出してbrew install ollamaだけです。

05. 速度を求めるなら「RTX 4090」

「RAGで大量のドキュメントを高速処理したい」「自前のデータで学習（LoRA）を回したい」という場合は、間違いなくNVIDIAを選ぶべきです。Macのメモリ帯域幅も広いですが、CUDAコアの暴力的な計算速度には敵いません。

ゲーミングPCを持っている人は、まずはそのままOllamaをWindowsに入れて試してみるのが良いでしょう。

06. まとめ

結論として、以下のような選び方をお勧めします。

Mac (M1/M2/M3 Max以上): 手軽に始めたい人、巨大モデルを動かしたい人、静音性を重視する人。
NVIDIA (RTX 3060/4060以上): 学習まで視野に入れている人、生成速度を追求する人、ゲームもしたい人。

Hint

Ollamaはどちらの環境でも優秀に動作します。まずは今あるPCで試してみて、不足を感じたら買い替えを検討しましょう。

次回は、GPUを持っていない人向けに、「CPUだけでローカルLLMはどこまで戦えるのか？」という限界に挑戦します。

なんでも技術ブログ

このブログを検索