RISC-Vで16%もの性能向上を実現！LLVM最適化事例を徹底解説

この記事の途中に、以下の記事の引用を含んでいます。
Unlocking 15% More Performance: A Case Study in LLVM Optimization for RISC-V

プロジェクトの舞台裏：RISC-V向けLLVMツールチェーンが秘める可能性
驚きの成果！「最大16%高速化」をもたらした主な取り組みとは
「プロセッサ最適化の肝」—スケジューリングモデルの威力を解剖
1. スケジューリングモデルが性能に与えるインパクト
なぜベクトル化が万能じゃないのか？コードの裏側を詳解
1. オープンソースコミュニティで改善を加速
IPRAによる「賢いレジスタ管理」で小粒だけど確かな改善
GCCとLLVMは「一長一短」—今どちらが速いのか？
現場での教訓—最適化のカギは「全体最適」
まとめ～本事例がRISC-V＆OSS開発者に与えるインパクトとは？

プロジェクトの舞台裏：RISC-V向けLLVMツールチェーンが秘める可能性

近年、RISC-Vアーキテクチャへの関心が高まり、世界中でオープン標準のCPUベースの開発競争が激化しています。

そんな中、「LLVM×RISC-V」の組み合わせはオープンエコシステムの中核を担う存在となりつつあり、コンパイラ最適化はより重要性を増しています。

今回取り上げるのは、Mikhail R. Gadelha氏がRISC-V Summitで講演した「LLVMによるRISC-V最適化の事例研究」です。

なんと、10カ月にわたるプロジェクトによってSPEC CPU 2017ベンチマークで16%もの処理速度向上を達成したというのです。

単なる理論的な改善ではなく、実機（Banana Pi BPI-F3/SpacemiT X60）でのリアルな成果を示している点が本記事の特筆すべきところ。

RISC-V分野の現場で何が起きているのか、その最前線を本記事で分かりやすく紐解いていきます。

驚きの成果！「最大16%高速化」をもたらした主な取り組みとは

まず注目すべきは、記事で明確に次のように述べられている点です。

“what used to be a 15% speed-up is now up to 16% on SPEC CPU® 2017. Small change, but still measurable.” (Unlocking 15% More Performance: A Case Study in LLVM Optimization for RISC-V)

訳すと、「当初は15%の高速化だった成果が、今では16%へとわずかですが確かに向上しています」と言及されています。

この性能向上は、主に以下の3点の施策を通じて実現されています。

SpacemiT X60専用のスケジューリングモデルの構築
関数をまたぐベクトル化（vectorization across calls）の強化
IPRA（関数間レジスタ割り当て）対応によるスピルの削減

これらが複雑に絡み合い、個別の改良だけでは変化の見えないパフォーマンスの壁を突破したのです。

「プロセッサ最適化の肝」—スケジューリングモデルの威力を解剖

LLVMの進化は目覚ましいものがありますが、その力の源泉であるスケジューリング（命令スケジューリング）は、多くのプログラマが見落としがちな重要部位です。

今回の取り組みでは、Banana Pi BPI-F3（SpacemiT X60: in-order、8コア、RVV 1.0 256bitベクトル）向けに、命令ごとのレイテンシ＆スループットデータを全て収集し、詳細なスケジューリングモデルを構築するところからスタートしています。

実際、記事中では次のように説明されます。

“The biggest piece of the work was to actually collect the data on every single instruction supported by the board. To build a correct model, we… wrote custom microbenchmarks to measure latency for every instruction.”（出典同上）

これは、手作業で数千にも及ぶ命令の“実測”を行う、非常に地道で職人技的な作業です。

「アーキテクチャ最適化＝地道な計測の積み重ね」という事実を如実に物語っていますね。

スケジューリングモデルが性能に与えるインパクト

命令スケジューリングが誤っていると、プロセッサのパイプラインが無駄に止まってしまい、”とても遅い”コードが生み出されます。

特にin-order型（命令実行順序が固定）のCPUでは、「ロード→加算→乗算→…」のような命令依存性をちゃんと理解し、無駄な停止を避けることが極めて重要です。

記事でも次のような例が紹介されています。

“…thanks to an accurate scheduling model the compiler can reason that it is better to emit the following code with latency(max(load, fmul) + fadd)… this was just an illustrative example, … but it demonstrates how missing scheduling information leads to unnecessary stalls.”

このような工夫により、実際に「最大16.8%の処理時間短縮」を達成したとされています。

なぜベクトル化が万能じゃないのか？コードの裏側を詳解

現代プロセッサでは「ベクトル命令＝速い」という先入観がありますが、実態はそれほど単純ではありません。

Mikhail氏の事例でも、ベクトル化（SIMD化）されたコードがスカラーコードより遅いという現象が観測されています。

原因は関数呼び出し（function call）をまたいでレジスタスピル（値の一時退避・回復）が大量に発生することにありました。

“During benchmarking, we found strange cases where scalar code was faster than vectorized code. The root cause: register spills, especially around function call boundaries.”（出典同上）

本質的な理由は、従来のLLVMのSLPベクトライザが、関数呼び出しを挟む箇所のコストを正確に見積もれていなかったこと。

プロファイルやコストモデルの未整備が、性能どころか“逆効果”を生んでいたのです。

オープンソースコミュニティで改善を加速

この問題を把握した後は、オープンソースらしいコラボレーションが効果を発揮。

SLPベクトライザのメンテナであるAlexey Bataev氏が副作用を抑えた改良パッチを開発し、最終的には「最大+11.9%改善、ビルド時間の増加もほぼ皆無」に落ち着きました。

この一連の工程は「バグ出し－議論－パッチ作成－再検証」というふつうの開発現場でも大いに役立つ教訓です。

効率的な最適化には、観察力＋チームワーク＋データ駆動型アプローチが欠かせません。

IPRAによる「賢いレジスタ管理」で小粒だけど確かな改善

高性能コンパイラを名乗るなら、レジスタ管理能力は絶対に外せないポイント。

LLVMは従来、関数呼び出し時に「実は使われていないレジスタ」まで無駄にスピル＆リストアする保守的な実装でした。

これを解消するのがIPRA（Inter-Procedural Register Allocation）。

“IPRA tracks which registers are actually used across call boundaries. Without it, LLVM spills registers conservatively, including registers that aren’t truly live.”（出典同上）

この機能により、「実際に生きているレジスタだけを対象とした最小限のスピル」に最適化可能となり、最大3.4%、地味ながらも安定した高速化が実現されています。

ただしまだ既知バグがあり、デフォルト有効にはなっていません。

こうした小さなマイルストーンの積み重ねこそ、オープンソースコンパイラの醍醐味といえるでしょう。

GCCとLLVMは「一長一短」—今どちらが速いのか？

当然ながら、この記事の本丸はLLVMの高速化ですが、その意義を知る上ではライバルGCCとの比較が必要不可欠です。

“On RVA22U64, LLVM can be 27% faster on some benchmarks but also 27% slower on others (notably x264).”

ベンチマークによっては、LLVMがGCCに大勝するケースもあれば、逆に負けるケースも目立ちます。

こうした“枝分かれ”の主因には「各コンパイラがどこまでプロセッサ固有の最適化モデルをもっているか？」があり、特に今回はLLVMだけがX60専用スケジューリングに対応していることも関係しています。

RISC-Vのような新興アーキテクチャでは、コミュニティの層の厚さやプロジェクトごとのウェイト付けが直接成果に現れやすい、というのが私の実感です。

現場での教訓—最適化のカギは「全体最適」

記事の最後で非常に共感できたのが、各貢献の“組み合わせ”こそが最終的な性能向上につながる、との指摘です。

“Many contributions don’t show results until the entire system comes together. … only when the full model was integrated did we see actual improvements.”

最先端のソフトウェア開発においては、一つ一つの数値改善ではなく「総合的なバランス感覚」が最重要。

現場では「個別最適 → 全体最適」という流れを意識しないと結局“絵に描いた餅”でとどまってしまう。

本プロジェクトのように、詳細な測定・現場での反復検証・フレキシブルなパッチ適用と、その“地味だけれど泥臭い工程”の積み重ねがようやく16%というインパクトのある成果につながっている点は、あらゆるITプロジェクトの普遍的教訓といえます。

まとめ～本事例がRISC-V＆OSS開発者に与えるインパクトとは？

RISC-Vにとって「LLVMはGCCに比肩するだけの実力を持ち始めた」――今回の事例研究は、その象徴であると同時に、今後の発展可能性を強く印象付けるものでした。

たった一つのパッチで世界が激変することは稀ですが、地道な計測、コミュニティコラボレーション、実装と反復評価を繰り返すことでのみ、真の性能ブレークスルーは獲得できます。

RISC-V分野のみならず、最適化技術やOSS開発に携わるすべての技術者――仕組み化と地道な努力の両輪で技術を磨き上げることの大切さを、改めて心に刻んでほしいと思います。

categories:[technology]