Arm CPUはなぜTSOメモリモデルをサポートすべきか？―Appleシリコン時代の仮想化・ゲーミングから考える

この記事の途中に、以下の記事の引用を含んでいます。
Support for the TSO memory model on Arm CPUs

Armでもx86互換の「TSOメモリモデル」対応論争が勃発中
「メモリモデル」とは？x86とArmでなぜ違う？
ゲーム・仮想化・高性能エミュレータが直面する壁
カーネルがTSO切り替えをサポートすべきか？コミュニティで真っ二つ
1. 反対意見：「断片化と将来の保守性リスク」
2. 推進側の反論：「現実的には問題にならない・既に多くの派生カーネルで有効化」
技術的・哲学的な論点：ハードウェアの新機能 VS. 保守性・ポータビリティ
私見：「使うな」より「安全に使わせる仕組み」を
結論：Linuxコミュニティの今後に期待 ― ユーザーと開発者のための現実的落としどころを

Armでもx86互換の「TSOメモリモデル」対応論争が勃発中

CPUのメモリモデルというと、普段エンドユーザーにはなじみのない話題かもしれません。

しかし近年のM1/M2などAppleシリコン搭載Macや、クラウド/サーバー向けArmサーバーの登場で、「x86プログラムをArm上で高速・安全に動かす」ことが、実はLinuxコミュニティや技術者の間で大きな問題となっています。

その中心にあるのが、x86が標準で採用しているTSO（Total Store Ordering）メモリモデルを、Armプロセッサでも「正しく/高速に」エミュレートするためのサポートを、カーネルが担うべきかどうか――という難問です。

この記事は、この議論のなりゆきと、そこに潜むOS・ハードウェア設計、そして今後のLinux/Arm/x86エコシステムの進化に関する根本的な論点を掘り下げています。

「メモリモデル」とは？x86とArmでなぜ違う？

まず簡単にいうと、CPUの「メモリモデル」とは、複数の命令（読み書き）が実際にどの順番で外部（他CPUや他スレッド）から見ても観察されるか、を厳密に定めたルールのことです。

x86（IntelやAMDのPC用CPU）では「Total Store Ordering（TSO）」が採用されていて、書き込み（store）は実行された順番通り全CPUに見えるし、読み込み（load）も基本的にそのまま実行順で観察される比較的厳しい・順序が保証されたモデルとなっています。

“The x86 architecture implements a model that is known as “total store ordering” (TSO), which guarantees that writes (stores) will be seen by all CPUs in the order they were executed.”
Support for the TSO memory model on Arm CPUs

対してArmのメモリモデルは、もっと「緩い」（weak）です。

CPUの高性能化、高効率化のために、「読み書きを命令レベルで前後に入れ替えてもよい」「状況に応じてキャッシュや複数操作の合成、アウトオブオーダー実行など様々な最適化を許す」といった設計になっているためです。

大半のアプリには影響はありませんが、スレッドやプロセス間で複雑な並行処理（concurrent code）を行う場合に、x86前提のコードがArm上で「微妙な・発見しにくいバグ」を起こしうるというリスクが生じます。

ゲーム・仮想化・高性能エミュレータが直面する壁

日常使いのソフトウェアでは、普通メモリバリアなどソフトウェア的なガードで対応します。

しかし問題は、「x86コードを――たとえばゲームや仮想化環境、Windowsエミュレータ――をそのまま（バリア挿入などを最小限にして）高速に動かしたい」という要望です。

“If an x86 emulator does not also emulate the TSO memory model, then concurrent code will likely fail, but emulating TSO, which requires inserting memory barriers, creates a significant performance penalty. It seems that there is one type of concurrent x86 code — games — that some users of Arm CPUs would like to be able to run…”
Support for the TSO memory model on Arm CPUs

実際、Arm側のベンダー（特にApple、NVIDIA、Fujitsuなど）は「TSO相当をハードウェアでサポートする」仕組みを一部製品に実装。
Appleシリコン（M1/M2）は、ブート時の設定でTSOモードを有効化できる機能が備わっています。

カーネルがTSO切り替えをサポートすべきか？コミュニティで真っ二つ

このハードウェア機能をLinuxカーネルからユーザー空間（ユーザープロセス）に公開して、自在にTSO切り替えできるようにしようとするパッチが現在議論されています。

具体的には prctl() システムコールで、
– PR_GET_MEM_MODEL … 現在のメモリモデルを取得
– PR_SET_MEM_MODEL … TSOやデフォルトなど希望のメモリモデルへ切替え要求

といったAPI拡張です。

反対意見：「断片化と将来の保守性リスク」

これに対し、Armアーキテクチャコードの有力メンテナーたちは激しく反対します。

“Will Deacon expressed his ” strong objection “, saying that this feature would result in a fragmentation of user-space code. Developers, he said, would just enable the TSO bit if it appears to make problems go away, resulting in code that will fail, possibly in subtle ways, on other Arm CPUs.”
Support for the TSO memory model on Arm CPUs

要するに、「この機能を簡単に解放すると、一部ハードウェアでしか動かないクセの強いコードが野放しになりかねない」「その結果、将来のArm互換性やソフトウェアの移植性を損なう」という懸念です。

推進側の反論：「現実的には問題にならない・既に多くの派生カーネルで有効化」

これに対し、AppleシリコンのAsahi Linux開発チームはこう反論しています。

「すでに下流（ディストリ固有）カーネルではこの機能を何万人ものユーザーに提供している。
アップストリーム（公式）で拒否しても、現実には各ディストリが独自にパッチを当て続けるだけなので、結局断片化リスクはあまり変わらない」。

“There’s a pragmatic argument here: since we need this, and it absolutely will continue to ship downstream if rejected, it doesn’t make much difference for fragmentation risk does it? The vast majority of Linux-on-Mac users are likely to continue running downstream kernels for the foreseeable future anyway to get newer features and hardware support faster than they can be upstreamed. So not allowing this upstream doesn’t really change the landscape vis-a-vis being able to abuse this or not, it just makes our life harder by forcing us to carry more patches forever.”
Support for the TSO memory model on Arm CPUs

技術的・哲学的な論点：ハードウェアの新機能 VS. 保守性・ポータビリティ

こうした議論は表面的な「API公開」の是非を超えて――
– 「Linuxはどこまで個別ハードウェアの（やや特殊な）機能をOSレベルでサポートすべきか？」
– 「パフォーマンス最適化／ユーザビリティと、ソフトウェア全体の互換性・保守コストのバランスをどうとるか？」

という、OS/カーネル開発の根本にかかわる話として捉えるべきです。

Linuxには元来「ユーザーが使うハードウェア機能は可能な限り解放し、能力を最大限に活かせる柔軟性・自由度を確保する」というフィロソフィーがあります。

一方で、何でも機能を入れると逆にAPIやコードベースが複雑化し、結果的に脆弱性や保守コスト、ポータビリティ損失を招きかねないのもまた現実です。

とりわけメモリモデルはカーネルの根幹に関わり、x86/Arm 両エコシステムの“橋渡し”として今後さらに議論が活発になる分野ともいえます。

私見：「使うな」より「安全に使わせる仕組み」を

この論争をどう捉えるべきでしょうか？

私は、AppleシリコンのユーザーやSteam DeckやクラウドゲーミングでArmを活用したい開発者にとって、「TSOモードによる恩恵（性能向上）」は確かに現実のニーズであると認めます。

例えば、Windows仮想環境でDirectXゲームを（バリア挿入コスト無しで）満足に動かしたい、といったテーマは長らくWin環境からMacやLinuxへ乗り換えを阻む壁のひとつでした。

一方、片方のCPUだけで有効な特殊機能が、OSSソフトウェアの未来の保守性や移植性に禍根を残す可能性にも配慮しなければなりません。

「使わせない」ではなく「正しく制限付きで使えるAPI設計」
たとえば、
– TSOサポート可否を明示的に問い合わせるAPI設計
– 「TSO前提コード」はemulatorや明示的なオプションのもとでのみ動作するよう制約
– ドキュメント・ツールチェーン・CIによりワーニング検出やチェックを強化

など「ソフトランディング」的な折衷案が実装面でも成熟していくことが望ましいと感じます。

結論：Linuxコミュニティの今後に期待 ― ユーザーと開発者のための現実的落としどころを

Linuxコミュニティは長い歴史のなかで、ユーザー/開発者双方にメリットのある解決策を逐次探しつづけてきました。

新しいアーキテクチャ、新しいハードウェアが登場するたびに、こうした「下流／上流のねじれ」も経験値として蓄積されてきたのが事実です。

重要なのは「この機能を使ってはいけない」という拒絶ではなく、
「この機能はこういうとき、こう制限付きで安全に使える」というノウハウやインフラの成熟
――それこそがラムダアーキテクチャの進化、Linuxエコシステムの持続的発展につながると信じます。

本件のような議論はおそらくすぐには決着がつかないでしょう。
しかし、AppleシリコンやArmサーバープラットフォームがさらに普及していく中で、「移植性よりも実用性」「保守性とハードウェア利用のバランス」の最適解を探りつつ、多様なハードウェアの恩恵を「正しく」活かすOS設計の重要性が今後も増大していくのは間違いありません。

categories:[technology]