技術部門: x86用Just In Time コンパイラ shuJITと
JITコンパイラによるJava仮想マシンの分散オブジェクト対応 JITDO
首藤一幸
早稲田大学理工学研究科情報科学専攻
shudoh@muraoka.info.waseda.ac.jp

1.応募の技術的主張の概要

SunのJava仮想マシン(JVM)と Intel x86 プロセッサ用の Just In Timeコンパイラ(JIT)、shuJIT を開発した。Linux, FreeBSD で動作する。ネイティブコードの生成に、処理が重いレジスタ割り付けを行わずに複数のレジスタを活用できる手法を採っている。また、JVM のそれではなくプロセッサのレジスタを使用しての命令数削減や、ネイティブコードの自己書き換えを利用した最適化を行っている。

JITコンパイラはバイトコードをいかようにもコンパイルすることができる。つまり、JVM によるバイトコードの解釈を変えることが可能である。独自の JVM を実装したり既存 JVM を改造する必要はない。バイトコードの解釈変更には様々な応用が考えられる。例えば、配列の生成、アクセス命令の解釈を変更することで、配列を通常のヒープ以外のメモリ空間、例えば分散共有メモリ上に確保することが可能である[1]。

私は現在、JVM 自身を分散オブジェクト対応させようと、JIT コンパイラおよびオブジェクトの遠隔操作機構 JITDO を設計、実装している。JVM 自身は遠隔オブジェクトを扱えないので既存の Java用分散オブジェクトシステムはそれ自体が Javaのプログラムとして実現されている。そのため、分散オブジェクトをローカルオブジェクトとは同じようには扱えない。可能なのはメソッド呼び出しのみであるなど、文法、意味的にさまざまな制約がある。 JITコンパイラを使ってバイトコードの解釈を変更することで、これらの制約がない分散オブジェクトシステムを構成可能である。

本稿では、まず JITコンパイラ shuJIT のコード生成方式、最適化手法、性能を述べる。続いて、現在 shuJIT をベースに実装している分散オブジェクトシステム JITDO の概要、構成を述べる。

2. 応募の背景

2.1 x86 用 JIT コンパイラ

JIT コンパイラは数多くリリースされている。いくつかの JIT コンパイラはすでに C,C++ に近い速度を実現しているし、さらなる高速化手法も研究、実装されつつある。ところが、これら OS、処理系ベンダの JIT コンパイラは、自社プラットフォームの競争力強化のために投入されるため、フリーの OS、例えば Linux、FreeBSD 用のものは提供されない。また、ソースは公開されない。

Linux, FreeBSD でも利用可能な JITコンパイラとして TransVirtual社の JVM Kaffe があるが、 Java処理系のリファレンスとしての JDK が必要な局面はどうしても多く、 JDK 用 JIT コンパイラの需要は高い。 JDK 用 JIT コンパイラとして、Linux には TYA[2] が存在するが、 FreeBSD には存在しなかった。しかも FreeBSD ではインタプリタとしてアセンブラではなく C で書かれたものが使われている。 shuJIT は JDK/FreeBSD で利用可能な唯一の JIT コンパイラである。

動的コンパイルを含めた実行時コンパイルの手法、構成の学習、研究のためには、JIT コンパイラのソースコードが役立つ。しかし、ベンダ製 JIT コンパイラはソースコードが公開されていない完全なブラックボックスである。 OpenJIT プロジェクト[1]は、実行時コンパイラを拡張、制御するプログラミングインタフェースの提供を目指している。これが成功すれば、コンパイラのソースコードがなくとも研究基盤として利用できる。 shuJIT は GNU Public License ver.2 に基づいてソースコードが公開されていて、教育、研究目的に自由に利用できる。

2.2 Java 用分散オブジェクトシステム

別の JVM 上のオブジェクト、つまり遠隔オブジェクトをローカルオブジェクトと同じか近い方法で操作可能にするシステムを、ここでは分散オブジェクトシステムと呼ぶ。仕様[3]より、JVM 自身は遠隔オブジェクトを扱う機能を持たない。既存の Java用分散オブジェクトシステム [4] [5] [6] はそれ自体 Javaのプログラムとして実現されている。遠隔オブジェクトの操作が Java 自身で実現されているために、ローカルオブジェクトにはない制約がある。例えば、生成に `new クラス名' では生成できず、メソッド呼び出しだけが可能でフィールド、配列アクセスはできない。また、遠隔参照する変数の型は、参照の指す実際の遠隔オブジェクトと異なる。

JITコンパイラを利用して、JVMによるバイトコードの解釈を変更することで、上記の制約を取り除け、より分散透明な分散オブジェクトシステムを実現できる。

3. 応募の構成・新規性・有用性

3.1 x86 用 JIT コンパイラ: shuJIT

すでにフリーソフトウェアとしてソースコードも含めて公開されている[9]。JDK for Linux用として性能面では既存のもの (TYA) に対するアドバンテージは顕著ではないものの、JDK for FreeBSD 用としては唯一の JIT コンパイラである。コード生成は、処理を軽くするためにレジスタ割り付けを行わないながら複数レジスタを活用可能な手法を採っている。その他、ネイティブコードの自己書き換えを利用した最適化などを行っている。

3.1.1 性能

Linpack Benchmark[8]、 CaffeineMark 3.0[7] で、インタプリタ、TYA、shuJITを比較した。環境は Pentium with MMX tech./233MHz、Linux 2.1.124、 Linux用 JDK 1.1.6v5 である。

Method、String の結果の悪さから、メソッド呼び出し性能が低いことがわかる。改善すべき点である。

図1: Linpack ベンチマーク

図2: CaffeineMark 3.0 ベンチマーク

3.1.2 コード生成手法

レジスタマシンを対象としたコンパイラは通常、最適化の容易さ、移植性とレジスタの有効活用を両立するために、プログラムを一旦レジスタ数無制限の中間言語に変換し、最適化後にレジスタ割り付けを行う。ところが shuJIT はレジスタ割り付けを行わない。コンパイル処理をなるべく軽くするためである。 JVM の単純なベンチマーク [7]では実行時コンパイルにかかる時間が計測されない。しかし現実には実行時コンパイルの間 JVM は利用者を待たせている。JITコンパイラでは生成されるコードの質だけでなくコンパイル時間の短さも重要である。

shuJIT では、レジスタ割り付けを行わずに、かつ複数のレジスタを活用できるコード生成手法を採っている。TYA[2]と同様に、生成するネイティブコードをあらかじめ各バイトコード命令ごとに用意してある。基本的にこの pre-assembled ネイティブコードをつなぎ合わせてコード生成を行っていく。

これだけではスタックトップ付近のキャッシュにはひとつのレジスタしか使えない。そこで、複数レジスタを活用するために、レジスタがスタック上のどの要素を保持しているかに対応するスタック状態を定義した。 shuJIT では 2つのレジスタをキャッシュに利用し 5 状態定義している。pre-assembled コードも 5状態を前提としたものをそれぞれ別に用意している。コンパイラは、バイトコード命令、スタック状態に応じた pre-assembled コードをつなぎ合わせていく。

図3: stack states

ジャンプ命令では、ジャンプ直前のスタック状態とジャンプ先で想定されている状態が異なり得るので注意が要る。通常の JVMジャンプ命令ではジャンプ直前に状態移行コードを挿入する。JVM の tableswitch, lookupswitch 命令ではトランポリン方式で状態を移行させる。すなわち、状態移行と指定番地へのジャンプだけを行うコード片をあらかじめ用意しておき、各 swtich命令ではそのコード片へジャンプさせる。

3.1.3 その他の最適化

スタックトップをレジスタに載せる他にも、いくつか工夫をしている。

JVM が用意しているスタックの代わりにプロセッサの機構を使っている。JVM のスタックを利用すると、push 動作は JVM スタックへのコピーと JVM スタックポインタとなる。プロセッサのスタックを利用するとプロセッサの push 命令ひとつで済む。

しかしそもそも、コード生成時にレジスタマシン的な中間言語を経由させればネイティブコードまでがスタックマシンの動作を行う必要はない。pre-assembled コードを使用するコード生成方式に特化した最適化である。

生成されたネイティブコードが自己書き換えを行う。一度きり、初めて実行されたときのみ必要な処理を二度目以降の実行では省くために利用している。例えば JVM new 命令では、実行中のコードがインスタンスを生成するクラスへアクセスする権限を持っているかチェックする必要がある。このチェックは一度で充分である。

3.1.4 フリーソフトウェア

shuJIT はフリーソフトウェアとしてすでに公開されている。ライセンスは GNU Public License ver.2 なので、誰でもソースコードを入手し、学習、研究に利用することができる。

JDK/FreeBSD で利用可能な JIT コンパイラは shuJIT のみである。

3.2 JIT コンパイラによるJava仮想マシンの分散オブジェクト対応: JITDO

JITDO は現在 (98年 10月 27日) shuJIT をベースに実装中であり、まだ動作していない。完成すれば、世界一分散透明な分散オブジェクトシステムとなる。

JVM 自身は遠隔オブジェクトを直接扱う機能を持たない。既存の分散オブジェクトシステムはそれを補う Java のプログラムである。Java プログラムであるゆえに、ローカルオブジェクトと同じようには遠隔オブジェクトを扱えない。インスタンスの生成はローカルオブジェクトとは異なる方法で行わざるを得ず、フィールド、配列のアクセスはできず、遠隔参照の変数の型が実際の遠隔オブジェクトとは異なる。

JIT コンパイラはバイトコードをいかようにもコンパイルできる。つまり JVM によるバイトコードの解釈を変更できる。オブジェクトに対する操作、つまりインスタンスの生成、フィールド、配列アクセス、メソッド呼び出しを行う JVM 命令の解釈を変えることで、Java プログラムから遠隔オブジェクトをローカルオブジェクトと同様に扱えるようにできる。

ここでは、それ自身遠隔オブジェクトを扱うことができる JVM を分散オブジェクト対応 JVM と呼ぶ。

3.2.1 構成

Just In Time Distributed Object -- JITDO は、遠隔オブジェクトの操作を実現する Java プログラムと、それを利用する JIT コンパイラから成る。

既存システムでは、遠隔オブジェクトの代理となるローカルオブジェクトが遠隔オブジェクトと signature (セレクタ) が同じメソッド群を持ち、メッセージ呼び出しを遠隔オブジェクトに中継する。JITDO ではオブジェクトを操作する JVM 命令を JIT コンパイラがローカルな代理オブジェクトに中継し、代理オブジェクトは遠隔のリクエストマネージャに中継する。中継されるのは JVM 命令であってメソッド呼び出しではないので、遠隔オブジェクトのクラスに応じて代理オブジェクトのクラスを生成する必要はない。

図4: 遠隔オブジェクトの操作

JIT コンパイラは、操作対象のオブジェクトがローカルに存在するのか、代理オブジェクトなのかを判断する必要がある。また、代理オブジェクトを遠隔オブジェクトがローカルに存在するように見せるために、JVM の instanceof、checkcast 命令の挙動を変える必要がある。

3.2.2 プログラミングインタフェース

Java 言語の文法、機能に加えて唯一、オブジェクトの生成先 JVM を指定する手段を用意する必要がある。次のように指定すると、生成先 JVM が現在制御を握っているスレッドに対応付けられる。以後、このスレッドからのインスタンス生成は、ここで指定した JVM 上で行われる。

VMAddress addr = new VMAddress("foo.bar.com", 10000);
JitdoController.setInstantiationVM(addr);

最低限必要なプログラミングインタフェースはこれだけである。

3.2.3 既存分散オブジェクトシステムとの比較

まず、より分散透明である。インスタンスの生成をローカルオブジェクトと同じ文法で行えるし、フィールドアクセスが可能で、配列の遠隔参照を持て、遠隔参照と実際のオブジェクトの型の不一致がない。

反面、ローカルオブジェクトの操作が遅くなることが予想される。既存システムでは、virtual 呼び出しを利用して、メソッド呼び出しが遠隔参照に対してであった場合は遠隔へのリクエストを行っている。JITDO ではオブジェクトへの操作ごとに、対象がローカルか遠隔かの判断をするので、その分、ローカルな操作であっても遅くなることが予想される。

4. 応募システムの実行例

Linux または FreeBSD のシェルから Linpack ベンチマークを動かした場合。

% java Linpack
Mflops/s: 1.923  Time: 0.36 secs  Norm Res: 1.33  Precision: 2.220446049250313E-16
% setenv JAVA_COMPILER shujit
% java Linpack
Mflops/s: 5.282  Time: 0.13 secs  Norm Res: 1.33  Precision: 2.220446049250313E-16

5. まとめ

Intel x86 プロセッサ用の JIT コンパイラ shuJIT を実装した。 Sun の JVM (JDK, JRE) と Linux または FreeBSD で動作している。ソースコード込みで公開されていて、学習、研究に利用できる。その性能、コード生成手法、いくつかの最適化手法について述べた。

JIT コンパイラがバイトコードの解釈を変更することで、既存システムより分散透明な分散オブジェクトシステムを構成できる。このアイディアに基づいて、現在 JITDO を実装している。その設計、プログラミングインタフェースを述べ、既存システムとの差異を考察した。

参考文献

[1]: 松岡, 小川, 志村, 木村, 堀田, 高木. "OpenJIT -自己反映的な Java JITコンパイラ-", 電子情報通信学会技術研究報告, CPSY98-67, pp. 49-56, August 1998.
[2]: TYA Archive,; http://tya.home.ml.org/.
[3]: Tim Lindholm, Frank Yellin. "The Java^TM Virtual Machine Specification", Addison Wesley, 1997.
[4]: Sun Microsystems. Java^TM Remote Method Invocation Specification, 1997.
[5]: ObjectSpace. Voyager,; http://www.objectspace.com/products/Voyager/.
[6]: 平野. "HORB: Distributed Execution of Java Programs", Proceedings of World Wide Computing and Its Applications, March 1997.
[7]: CaffeineMark 3.0,; http://www.pendragon-software.com/pendragon/cm3/.
[8]: Linpack Benchmark -- Java Version,; http://www.netlib.org/benchmark/linpackjava/.
[9]: shuJIT: JIT compiler for Sun JVM/IA32,; http://www.shudo.net/jit/.

技術部門: x86用Just In Time コンパイラ shuJITと JITコンパイラによるJava仮想マシンの分散オブジェクト対応 JITDO 首藤 一幸 早稲田大学 理工学研究科 情報科学専攻 shudoh@muraoka.info.waseda.ac.jp