■GPUはなぜ熱くなるのか
GPUの中では、膨大な数のトランジスタが高速に動いている。
そこに電流が流れる。
電流が流れれば、抵抗がある。
抵抗があれば、熱が出る。
つまりGPUの発熱は、特別な現象ではなく、
電気を使って計算する以上、必ず起きる現象である。
■AI時代はGPUの負荷が桁違いに増える
従来のGPUは、ゲームや画像処理で使われることが多かった。
しかしAI時代では違う。
GPUは、
● 生成AIの学習
● 大規模AIモデルの推論
● 画像・動画生成
● 自動運転AI
● ロボット制御 など、極めて重い計算に使われる。
つまりGPUは、一時的に働く部品ではなく、
常時、高負荷で働き続ける部品になっている。
当然、熱問題は大きくなる。
■半導体は小さくなるほど熱くなる
半導体は長年、微細化によって進化してきた。
小さくすることで、
● 高速化
● 低消費電力化
● 高密度化 を実現してきた。
しかしAI時代では、単純な微細化だけでは足りなくなってきた。
より多くの演算回路を、より小さな面積へ詰め込む。
その結果、熱密度が急激に上がる。
■問題は温度より熱密度
ここが重要である。
GPUの熱問題は、単に温度が高いという話ではない。
本当の問題は、小さな面積に、大きな熱が集中することである。
例えば、同じ100Wの発熱でも、大きな板全体に広がっている場合と、
小さなチップ上に集中している場合では、難易度がまったく違う。
AI半導体では、この熱密度が非常に高くなる。
■ホットスポットが性能を止める
半導体内部では、全体が均一に熱くなるわけではない。
一部だけ極端に熱くなる場所がある。
これを、ホットスポットという。
ホットスポットが発生すると、
● 演算性能低下
● エラー
● 劣化
● 寿命低下
● 保護制御による性能制限 が起きる。
つまりAI半導体では、平均温度より、局所的な熱集中が問題になる。
■冷やせないGPUは性能を出せない
GPUは高温になると、自ら性能を落とすことがある。
いわゆる、サーマルスロットリングである。
これは、故障を防ぐために、GPUが動作速度を下げる制御だ。
つまり、高性能GPUを搭載していても、
熱を逃がせなければ、カタログ性能を出せないということになる。
■3D半導体で熱問題はさらに難しくなる
AI時代では、GPU単体だけではなく、
周辺にHBMなどの高性能メモリを近接配置する構造が増えている。
さらに将来は、半導体を縦方向に積む3D半導体も重要になる。
しかし積層すると、熱の逃げ道は複雑になる。
上にも下にも発熱源がある。
熱を逃がしたいのに、熱を出す部品が重なっている。
つまり3D半導体は、高性能化の技術であると同時に、
熱を閉じ込めやすい構造でもある。
■半導体パッケージ全体が熱設計対象になる
昔は、チップ単体の性能が注目されていた。
しかし今は違う。
AI半導体では、
● チップ
● メモリ
● 基板
● TIM
● 放熱板
● ヒートシンク
● 液冷プレート まで含めて、熱設計を考える必要がある。
つまり熱問題は、半導体単体ではなく、
パッケージ全体の問題になっている。
■熱は界面で止まりやすい
ここで重要なのが、前章で扱った接触熱抵抗である。
半導体から熱を逃がすには、熱がいくつもの材料を通過する。
例えば、
チップ
↓
TIM
↓
放熱板
↓
冷却プレート という経路である。
このとき、材料と材料の境界で、
● 空気層
● 浮き
● 圧力不足
● 表面粗さ
● 厚みムラ があると、熱は流れにくくなる。
つまりGPU・半導体の熱問題では、
材料性能より、界面性能が支配的になることがある。
■高性能材料を使っても冷えない理由
熱伝導率の高い材料を使えば、すべて解決するように見える。
しかし実際には、
● 密着していない
● 厚みがばらつく
● 圧力が足りない
● 微細な段差がある
● 熱膨張で接触が変わる だけで、熱性能は大きく変わる。
つまり、良い材料を使うことと、
良い状態で使えることは別である。
ここを間違えると、AI半導体の熱対策は成立しない。
■研究者視点 : 半導体は熱を逃がせる構造が競争軸になる
研究開発では、
● 高熱伝導材料
● 次世代TIM
● 液冷プレート
● 熱拡散構造
● 3D実装の熱解析
● 低消費電力設計 などが進んでいる。
ただし本質は、高性能化した半導体から、
どう熱を外へ逃がすかである。
■現場視点 : 最後は量産で崩れる
試作では冷えていても、量産では結果が変わることがある。
理由は、
● 貼り合わせズレ
● 圧力ばらつき
● 材料厚みのばらつき
● 表面状態の違い
● 熱膨張による変形
● 組立工程の個体差 などである。
つまりGPU・半導体の熱問題では、理論上冷えるだけでは足りない。
量産しても冷えることが必要になる。
■OTIS視点
OTIS視点では、GPU・半導体の熱問題で重要なのは、
● 放熱材の高精度加工
● 絶縁放熱材の加工
● 薄膜加工
● 高精度ラミネート
● 異種材料の貼り合わせ
● 微細形状の打ち抜き
● 量産時の寸法安定性 である。
AI半導体の世界では、熱対策材料そのものだけでなく、
その材料をどう加工し、どう貼り、どう量産するかが重要になる。
■OTISでできること
OTISでは、
● グラファイトシート加工
● 放熱シート加工
● 絶縁材加工
● 高精度打ち抜き
● 微細加工
● 高精度ラミネート
● 異形状積層
● リール供給対応 などを通じて、
GPU・半導体周辺の熱対策部材を、再現性をもって、
量産で使える形に近づけることへ貢献できる可能性がある。
■OTISの専門外
一方でOTISは、
● GPU設計
● 半導体回路設計
● 半導体前工程
● AIチップ開発
● 液冷装置そのものの設計 を専門とする会社ではない。
しかし、熱対策部材を量産工程で成立させるという領域では、重要な役割を担える可能性がある。
■この技術が重要になる産業
★★★★★ AI半導体
★★★★★ GPU・アクセラレータ
★★★★★ データセンター
★★★★★ 3D半導体
★★★★☆ 高性能サーバー
★★★★☆ エッジAI機器
■まとめ
AI時代の半導体は、熱を逃がせるかで決まる
GPU・半導体は、AI時代の中心部品である。
しかし高性能化するほど、熱密度は上がる。
熱密度が上がるほど、ホットスポットが発生しやすくなる。
そして熱を逃がせなければ、どれだけ高性能な半導体でも、本来の性能を出せない。
つまりAI時代の半導体競争は、計算性能の競争であると同時に、熱を逃がす競争でもある。
そしてその裏側では、高性能材料を量産で成立させるための、
加工・接触・貼り合わせ・界面設計が、ますます重要になっていく。
コラム監修:角本 康司 (オーティス株式会社)
語学留学や商社での企画開発を経て2011年にオーティス株式会社入社。経営企画部を中心に製造・技術部門も兼任し、2018年より代表取締役として事業成長と組織強化に努めている。
※本記事は教育・啓発を目的とした一般的な技術解説であり、特定企業・製品・技術を示すものではありません



