いざ構築！Rustで自作するLC-3仮想マシンの世界――「本当に理解する」とはどういうことか

この記事の途中に、以下の記事の引用を含んでいます。
Let’s build an LC-3 Virtual Machine

なぜ今、オリジナルの「仮想マシン」を作るのか？
「VM構築」その本質――ビット演算と原理主義的アプローチ
1. 知見の引用例
なぜ「LC-3」なのか？VM内部構造から見る設計の妙
1. LC-3仮想マシン：その全体像
ビット操作こそ「機械の論理」――サイン拡張、マスク、エンディアン
「機械語」を「動かす」――命令実装の全体的流れと工夫
1. “命令分解”のリアル
2. サイン拡張の「罠」とその克服
分岐、ジャンプ、トラップ――制御フローとI/Oの実装
1. ブランチ（BR）、ジャンプ（JMP/JSR）、条件フラグ
2. トラップ（TRAP）：I/Oシステムコールの仮想化
「メモリマップドI/O」として拡張性への道
批評：自作VMは「全員に役立つ万能学習法」ではないが…
結論：読者にとっての“気づき”と次の一手

なぜ今、オリジナルの「仮想マシン」を作るのか？

「仮想マシン（VM）は魔法のような存在だ。物理的なコンピュータの中に、もうひとつの〈仮想のコンピュータ〉を作ること――そんなに簡単な説明で、しかしとてつもなくパワフルなシステムを語れる」（引用）

こう始まる今回の記事では、クラシックな教育用アーキテクチャ「LC-3」の仮想マシンをRustで一から作る過程を丁寧に解説しています。
すでに数多くのVM実装が世に溢れていますが、敢えて「自分で作る」理由を著者は明言しています。
「読むだけでは深く理解できない。作れなければ、真に理解したとは言えない。」
VCやDockerの時代、”動かす”のが簡単になったからこそ、これを自らゼロから組み立ててみる重要性はさらに高まってきています。

「VM構築」その本質――ビット演算と原理主義的アプローチ

本記事は実装の全行程を余すことなく紹介していますが、抽象理論やお手軽なサンプルでは終わりません。
多くの入門記事ではスキップされがちな“業界の部族的知識（tribal knowledge）”――つまり、ビットシフトやマスク、エンディアン、サイン拡張などシステムプログラミングの基礎テク――を「これこそが理解のコア」であると説明しています。

知見の引用例

「ビット演算（シフトなど）は理屈としては知っていたものの、実際にシステムプログラミングで使ったことはなかった。そのため、多くのテクニックは自分の頭の上を素通りしてしまっていた」（引用）

この問題意識から、著者は“最小限のRust知識だけを前提とした、超基礎からの解説”を目指し、「原理に立ち返った」アプローチを採用しています。

なぜ「LC-3」なのか？VM内部構造から見る設計の妙

LC-3仮想マシン：その全体像

LC-3は教育用に設計された、極めてシンプルな命令セット・アーキテクチャ（ISA）です。
抽象化されたプロセッサやメモリアドレス空間を持ち、入門者がコンピュータのアルゴリズムやハードウェア操作の仕組みを体験できる良い教材となっています。
仮想マシンのコア要素としては、次の2つがまず提示されます。

メモリ（memory）……アドレス付きのバイト/ワード配列（LC-3ではu16の配列）
レジスタ（registers）……超高速メモリ（CPU直結）、汎用レジスタ7つ＋特殊レジスタ（PCとcond）

記事で特に強調されているのは、こうした極少数のパーツだけで「計算機全体をエミュレートできる」という事実。
たとえば、実コードの一例として

rust pub struct Registers { pub r0: u16, pub r1: u16, // ... r2～r7も同様 pub pc: u16, // プログラムカウンタ pub cond: u16, // コンディションフラグ }

と、極めて直線的にマッピングされています。

ビット操作こそ「機械の論理」――サイン拡張、マスク、エンディアン

記事の中で徹底的に繰り返されるのが、「ビット演算＝システムの言語」であるということ。
基本的な命令のデータ取得・判定・分岐はほぼすべて“ビット単位の操作”で成り立っています。

たとえば、

“enum ConditionFlag { POS = 1 << 0, ZRO = 1 << 1, NEG = 1 << 2 }”

“1 << 2 means we’re shifting the bits twice to the left… it ends up being 4. Thus, 1 << 2 == 4. So why are we storing 1, 2, 4 here? …we’re playing with the possible conditional flags settings!”（引用）

このように「フラグをビットとして管理する理由」「特定ビット抜きだしのためのビットシフトとマスク」という“どうしてそうするのか”の必然を本質から説明しています。

また、エンディアン（ビッグ・リトル）についても、なぜLC-3ではBigEndianなのか、8bit配列と16bit命令との対応、データの読み込み時にどのように変換するかを事例で解説しています。
こうした「CPUやバイナリレベルでのデータ表現の違い」は、OS開発やバイナリ解析を本格的に学ぶ際の最初の難関です。
自作VM構築を通じて、その意味と実践的な手順が体験できます。

「機械語」を「動かす」――命令実装の全体的流れと工夫

記事はhello-world的な最低限の実装から始め、主要なOpCode（命令セット）の実装指針へ一歩ずつ進めていきます。

“命令分解”のリアル

命令セット（たとえばLEA, ADD, AND, NOT, BR, JMP, JSR…）はすべて16bitのデータ1個としてメモリに配置されます。
このうち「最初の4bitがOpCode」「○bit～○bitがDR（destination register）」……といったプロトコルがあります。

そのため、命令を処理するたびに
– let op_code = instruction >> 12 でOpCode部分抽出
– let dr = (instruction >> 9) & 0x7 でDRの3bit抜き出し
のような実装が求められます。

“bitwise AND to extract a subset of the bits in the value …The resulting 16 bits value will be exactly the direct register!”（引用）

こうした“生々しいビットワイズ処理こそがVM作成のド真ん中の仕事”であると著者は繰り返し強調しています。

サイン拡張の「罠」とその克服

レジスタからの値ロードや即値処理では「小さいビット幅から16bitへのサイン拡張」が欠かせません。
正数と負数でのパディングの挙動の違い（“単純に0詰めするだけでは値が化ける！”）――これもビット演算で実現せざるを得ません。

実例として
rust fn sign_extend(mut x: u16, bit_count: u8) -> u16 { if (x >> (bit_count - 1)) & 1 != 0 { x |= 0xFFFF << bit_count; } x }
という関数で、どのように「負数」を正しく拡張できるか――命令セットアーキテクチャの本質が現れています。

分岐、ジャンプ、トラップ――制御フローとI/Oの実装

ブランチ（BR）、ジャンプ（JMP/JSR）、条件フラグ

「BR命令ではコンディションフラグのビットと命令に設定されたフラグとをANDし、結果が0でなければPCを書き換える」（要約）

この設計により、「条件付き実行」や「ループ」「if文相当」が可能になります。
条件分岐ひとつ実装するにも「3bitの状態とコンディションレジスタの状態をAND」したビット単位比較という“ローレベル感”が重要です。
また、RET（サブルーチンからの復帰）もJMP命令のバリエーションとしてハンドルする実装上の工夫も見どころです。

トラップ（TRAP）：I/Oシステムコールの仮想化

I/O命令（PUTSやHALT）はトラップ（TRAP）として、専用のベクターテーブルを介して処理されます。

“The trap vector holds the identifier to which system call it wants to execute. The spec is super clear about how it works: Memory locations x0000 through x00FF… are the Trap Vector Table.”（引用）

PUTS命令のためには「R0の指すアドレスに文字列を置き、0までループして標準出力にprint」するというシリアルなロジックを、ディテールまでRustで再現しています。

「メモリマップドI/O」として拡張性への道

さらに実装が進むと、単なる命令処理ではなく「ハードウェアレジスタの仮想化」へと進みます。
キーボード制御のためにKBSR/KBDR（キーボードステータス／データレジスタ）をメモリ空間の一部（0xFE00/0xFE02）として扱う「メモリマップドI/O」――まさにハードウェア抽象化の本質です。

“if address == MemoryMappedReg::Kbsr as u16 { self.handle_keyboard(); }”（引用）

こうすることで“LC-3用のRogue（ローグライクゲーム）の実行”など、よりリアルなプログラム実行も可能になります。

批評：自作VMは「全員に役立つ万能学習法」ではないが…

ここまでのプロジェクト、はっきり言って誰もが「生産的」だと思えるかは分かれます。
実務的な意味では「既製のVMを使えば良い」し、「Rustのシステムプログラミングの入門」としても他に勉強法はあるでしょう。

しかし、「本当にコンピュータの仕組みを腑に落とす」「CPU/メモリ/命令セット/IOといった最小レベルをブラックボックス視しない」という学び方にこだわるなら、これ以上の題材はありません。
プログラムからハードウェアリソースをどのように利用するのか、なぜ一つのビットがその命運を分けるのか――このような気付きの価値は計り知れません。

また、「命令セット仕様書（spec）と実装コードを照らし合わせる」という点では、実際のCPU開発やエミュレータ、OS開発の第一歩そのものであり、低水準の実務家・研究者にとっては不可避の通過儀礼です。

結論：読者にとっての“気づき”と次の一手

本記事は実装手順そのものを指示通りに「なぞる」ためだけでなく、「なぜこの構造・設計・処理が必要なのか？」を論理的・具体的に解説しています。
仮想マシンを自作する体験は
– なぜ今動いているのか、どこでつまづいているのかを機械レベルで理解できる
– バイナリ解析・OS/エミュレータ開発・バーチャル化基盤の下支えとなる知識が体得できる
– Rust（または他の低水準言語）でのバイトオペレーション、型・安全性も自然に磨かれる

という圧倒的な“地頭力”の訓練になります。

「VM自作」は万人向けの学習法ではありませんが、「仕組みの根本を身体で理解したい人」にとっては最高クラスの教材です。
自作VMを通じて普遍的な“コンピュータ観”を身につけてみてはいかがでしょうか。

進化させれば、独自アセンブラや逆アセンブラの構築、よりリアルな周辺機器の仮想化……応用先は無限大です。

categories:[technology]