次世代情報家電向けヘテロジニアスマルチコアLSIを開発
~業界最高レベルの電力性能比37GOPS/Wを実現~
株式会社ルネサス テクノロジ/株式会社日立製作所/学校法人早稲田大学/国立大学法人東京工業大学
株式会社ルネサス テクノロジと株式会社日立製作所、学校法人早稲田大学、国立大学法人東京工業大学は、このたび、複数の中央演算処理装置(CPU)コアと特定用途向けプロセッサを搭載したヘテロジニアスマルチコア型システムLSIを開発し、業界最高レベルとなる電力性能比37GOPS(Giga Operations Per Second)/Wの高性能かつ低消費電力処理を実現した。
なお、本開発は、独立行政法人新エネルギー・産業技術総合開発機構(NEDO)が、2006年度から実施中である、半導体アプリケーションチッププロジェクトの中の「情報家電用ヘテロジニアス・マルチコア技術の研究開発」(プロジェクトリーダー : 日立研究開発本部 技師長 : 内山 邦男)により、実施したものである。
今回開発したヘテロジニアスマルチコアLSIでは、コアとして、汎用の32ビットRISC*1マイコン「SuperHのCPUコアである「SH-4A」を8個、動的再構成可能プロセッサのコア「Flexible Engine」を4個、マトリックス型超並列プロセッサの「MX-2」コアを2個搭載しており、各コアの異なる特性に応じて処理を割り振ることで、高効率処理を実現可能である。例えば顔画像を検出する映像処理に適用した場合、、顔の検出を「MX-2」に、その動きの検出を「FE」に、顔データのデータベース検索を「SH-4A」に割り当てることで、高性能な処理を高速に実現できる。加えて低消費電力化も図れるため、情報家電やIT機器の省エネルギー化にも貢献する。
また、複数種別のプロセッサコアへ処理を自動で割り当てる、プログラム自動並列化技術、これらを効率よくデバッグするソフトウェア統合開発環境技術を開発しており、ヘテロジニアスマルチコアLSI用ソフトウェア開発期間の短縮が図れる。
本技術開発の背景
近年、カーナビゲーション機器やデジタルTV、DVDレコーダ、家庭用ゲーム機、携帯電話などの情報家電においては、ブロードバンド・ネットワークへの接続をはじめ、音声・画像など多様なマルチメディア処理機能の搭載が望まれ、さらには一般家庭への普及に伴う低消費電力化、高性能化、安全性の向上などの要求が急速に高まっている。そして高性能化・低消費電力化に対応する新技術として、マルチコア技術に加え、1チップ上に特徴の異なる複数の種類のプロセッサコアを集積するヘテロジニアスマルチコア技術が注目されています。実行する処理の特徴を考慮に入れ、これらのプロセッサに対して処理を割り当てることで、高い性能を低消費電力で実現することが可能となり、今後の地球環境保全の観点からも重要な技術であると言える。
こうしたニーズに対応し、今回、37GOPS/Wの高性能かつ低消費電力を実現したヘテロジニアスマルチコアLSIを開発した。単一種類のプロセッサコアを集積するホモジニアスマルチコアに対し、2倍以上の電力性能比を実現できる。
開発したLSIの特長
1. 様々な用途に応用可能なヘテロジニアス構成
試作チップは、1チップに、最新の「SH-4A」コアを8個、特定用途向けプロセッサである「FE」を4個、「MX-2」を2個、ビデオデコード用コンポーネントであるVPU(Video Processing Unit)を1個、音声デコード用コンポーネントであるSPU(Sound Processing Unit)を1個集積しており、カーナビゲーション機器やデジタルTV、DVDレコーダーなど様々な用途に応用可能である。クロック周波数は、最大648MHz(メガヘルツ)で動作し、処理性能は、最大114.7 GOPSを実現する。消費電力は648MHz動作時に約3.07Wで、単位電力あたりの性能は37GOPS/W以上を実現している。
また、早稲田大学笠原博徳・木村啓二研究室が開発したヘテロジニアスマルチコア用自動並列化コンパイラは、汎用用途CPUコアと特定用途プロセッサコアへの自動的な処理の割り当て、自動消費電力低減制御を可能とした。具体的には、同コンパイラを用いると、早稲田大学内に設置したヘテロジニアスマルチコアアーキテクチャ・API検討委員会にてIT・半導体企業6社ともに開発したOSCAR APIヘテロジニアスマルチコア拡張を用いて、逐次プログラムからヘテロジニアスマルチコア用の並列プログラムの自動生成、各コア毎の周波数・電圧制御・クロックゲーティングによる消費電力低減制御を行なうことができる。このようなヘテロジニアスマルチコア用プログラムの自動並列化、電力制御の実現は、手作業では長期間を要していたソフトウェア開発期間を大幅に短縮できます。
さらに、東京工業大学前島研究室が開発したヘテロジニアスマルチコアに向けたソフトウェア統合開発環境は、各種アプリケーション・プログラム開発におけるデバッグに効果を発揮することが期待される。
2. データ処理能力の強化
従来の「SH-4A」の命令は全て16ビット幅命令であり非常にシンプルかつ高効率である反面、命令種別の制約によりコンパイラによる動作最適化が十分に行なうことができない場合があった。本LSIに搭載されている「SH-4A」においては約130個の32ビット幅の新規命令が追加されている。これらの命令は、従来の「SH-4A」における制約を補完することが可能である。命令コードの割り当てを最適に行なうことで、「SH-4A」の面積増加を2%以下に抑えながら、10%~34%の性能向上を実現した。具体的には、例えばDhrystone2.1にて16%の性能向上を得ている。
3. データ転送能力の強化
本LSIには20を越えるプロセッサ、コンポーネントが搭載されている。一方でシステムの規模増大に伴ない、単一アプリケーションで使用する領域は1GB(ギガバイト)を超えつつある。このため、複数のアプリケーションが同時動作するマルチコアシステムにおいては、これら多数のプロセッサ、コンポーネントで用いるデータを格納するための領域が不足するようになってきた。この状況を解決するため、物理アドレス空間を32ビットから40ビットに拡張した。32ビットの物理アドレス空間では4GBまでの空間を扱えるのに対し、40ビットの物理アドレス空間の場合は、その256倍である1TB(テラバイト)までの空間を扱うことが可能である。このアドレス空間の拡張に対応し、「SH-4A」の拡張と、特定用途プロセッサ間でのデータ通信を行なうためのデータ転送ユニットの拡張を行った。このデータ転送ユニットを用いることで、「SH-4A」のCPU性能を消費することなく、「SH-4A」と特定用途プロセッサ間でのデータ通信を行なうことが可能である。
注釈
*1 RISC (Reduced Instruction Set Computer) : 命令セットを簡略化することで、ハードウェアを簡素化し、高速化を図ることを目的にしたコンピュータ。