Chip Panas NVIDIA Sebenarnya Adalah Platform Panas
Sep 03, 2024
Tinggalkan pesan
NVIDIA berfokus pada proyek rekayasa tingkat sistem dan tingkat pusat data yang bertujuan untuk menciptakan sistem dan platform canggih yang mampu menangani tantangan AI generatif yang kompleks.
Awal bulan ini, NVIDIA menghadapi berita buruk yang jarang terjadi ketika muncul laporan bahwa akselerator GPU "Blackwell" yang sangat dinanti-nantikan perusahaan tersebut mungkin tertunda hingga tiga bulan karena cacat desain. Namun, juru bicara NVIDIA menyatakan bahwa semuanya berjalan sesuai rencana. Beberapa pemasok mengindikasikan bahwa tidak ada yang berubah, sementara yang lain mencatat beberapa penundaan yang wajar.
Orang dalam industri memperkirakan bahwa ketika NVIDIA melaporkan hasil keuangan Q2 FY2025 Rabu depan, pengguna akan memperoleh lebih banyak wawasan tentang status Blackwell.
Dilaporkan bahwa chip Blackwell-B100, B200, dan GB200-akan menjadi sorotan konferensi Hot Chips tahun ini, yang akan diadakan minggu depan di Universitas Stanford di California. NVIDIA akan memperkenalkan arsitekturnya, merinci beberapa inovasi baru, menguraikan penggunaan AI dalam desain chip, dan membahas penelitian pendinginan cair di pusat data yang digunakan untuk menjalankan beban kerja AI yang terus bertambah ini. Menurut Direktur Produk Komputasi Akselerasi NVIDIA, Dave Salvator, perusahaan tersebut juga akan memamerkan chip Blackwell yang sudah beroperasi di salah satu pusat datanya.

▲ Keripik Blackwell
Banyak hal yang dibahas NVIDIA tentang Blackwell sudah diketahui, seperti peluncuran GPU Blackwell Ultra tahun depan, dan GPU Rubin generasi berikutnya serta CPU Vera yang mulai diluncurkan pada tahun 2026. Namun, Salvator menekankan bahwa ketika berbicara tentang Blackwell, penting untuk melihatnya sebagai sebuah platform, bukan chip tunggal. Salvator mengemukakan hal ini dalam sebuah pengarahan untuk jurnalis dan analis minggu ini sebagai bagian dari persiapan untuk Hot Chips.
"Jika Anda memikirkan NVIDIA dan platform yang kami bangun, GPU, jaringan, dan bahkan CPU kami hanyalah permulaan," katanya. "Kami melakukan rekayasa tingkat sistem dan tingkat pusat data untuk membangun sistem dan platform ini yang benar-benar dapat mengatasi tantangan AI generatif yang sangat sulit. Kami telah melihat skala model tumbuh dari waktu ke waktu, dan sebagian besar aplikasi AI generatif perlu berjalan secara real-time, dengan permintaan untuk inferensi meningkat secara dramatis selama beberapa tahun terakhir. Inferensi model bahasa besar secara real-time memerlukan beberapa GPU, dan dalam waktu dekat, akan memerlukan beberapa node server."

Ini tidak hanya mencakup GPU Blackwell dan CPU Grace, tetapi juga chip NVLink Switch, DPU Bluefield, NIC ConnextX dan ConnectX, switch Ethernet Spectrum, dan switch InfiniBand Quantum. Salvator juga memberikan wawasan berbeda untuk NVLink Switch (di bawah), komputasi, Spectrum-X800, dan Quantum-X800.
NVIDIA memperkenalkan arsitektur Blackwell yang sangat dinantikan pada konferensi GTC 2024 pada bulan Maret tahun ini, dengan vendor dan OEM skala besar yang segera bergabung. Perusahaan ini menargetkan bidang AI generatif yang berkembang pesat, di mana model bahasa besar (LLM) menjadi semakin masif. Llama 3.1 dari Meta, yang diluncurkan pada bulan Juni, merupakan bukti tren ini, yang menampilkan model dengan 4,05 triliun parameter. Salvator mencatat bahwa seiring dengan semakin besarnya LLM, permintaan untuk inferensi waktu nyata tetap ada, yang memerlukan lebih banyak komputasi dan latensi yang lebih rendah, yang membutuhkan pendekatan platform.
"Seperti kebanyakan LLM lainnya, layanan yang didukung oleh model ini diharapkan berjalan secara real-time. Untuk mencapainya, Anda memerlukan beberapa GPU. Tantangannya adalah bagaimana mencapai keseimbangan yang baik antara kinerja GPU yang tinggi, pemanfaatan GPU yang tinggi, dan memberikan pengalaman pengguna yang baik bagi pengguna akhir yang menggunakan layanan berbasis AI ini," katanya.
Kebutuhan akan Kecepatan
Dengan Blackwell, NVIDIA telah menggandakan lebar pita setiap sakelar, meningkatkannya dari 900 GB/s menjadi 1,8 TB/s. Teknologi Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) milik perusahaan menghadirkan lebih banyak komputasi ke dalam sistem yang sebenarnya berada di dalam sakelar. Teknologi ini memungkinkan kami untuk memindahkan beberapa tugas dari GPU guna membantu mempercepat kinerja dan juga membantu memperlancar lalu lintas jaringan melalui jaringan NVLink. Ini adalah inovasi yang terus kami dorong di tingkat platform.
GB200 NVL72 multi-simpul adalah sasis berpendingin cairan yang menghubungkan 72 GPU Blackwell dan 36 CPU Grace dalam desain skala rak. NVIDIA mengklaim bahwa sasis ini memberikan kinerja inferensi yang lebih tinggi untuk LLM triliun-parameter seperti GPT-MoE-1.8T, yang secara efektif berfungsi sebagai satu GPU. Kinerjanya 30 kali lipat dari sistem HGX H100, dengan kecepatan pelatihan empat kali lebih cepat daripada H100.
NVIDIA juga telah menambahkan dukungan asli untuk FP4, menggunakan Quasar Quantization System milik perusahaan, yang memberikan presisi yang sama seperti FP16 sekaligus mengurangi penggunaan bandwidth hingga 75%. Quasar Quantization System adalah perangkat lunak yang memanfaatkan Transformer Engine milik Blackwell untuk memastikan akurasi. Salvator mendemonstrasikan hal ini dengan membandingkan gambar AI generatif yang dibuat menggunakan FP4 dan FP16, dengan sedikit atau tidak ada perbedaan yang terlihat di antara keduanya.
Dengan menggunakan FP4, model dapat menggunakan lebih sedikit memori dan berkinerja lebih baik daripada FP8 di GPU Hopper.
Sistem Pendinginan Cair
Dalam hal pendinginan cair, NVIDIA akan memperkenalkan metode chip-ke-chip langsung air hangat, yang dapat mengurangi konsumsi daya pusat data hingga 28%.
Salvator berkata, "Yang menarik dari metode ini adalah beberapa manfaatnya, yang meliputi peningkatan efisiensi pendinginan, biaya pengoperasian yang lebih rendah, masa pakai server yang lebih lama, dan potensi untuk menggunakan kembali panas yang ditangkap untuk penggunaan lain. Ini jelas membantu meningkatkan efisiensi pendinginan. Salah satu cara untuk mencapainya, seperti yang tersirat dari namanya, adalah bahwa sistem ini tidak benar-benar menggunakan pendingin. Jika Anda pikirkan tentang cara kerja lemari es, ia bekerja dengan cukup baik. Namun, ia juga membutuhkan listrik. Dengan mengadopsi solusi air hangat ini, kami tidak perlu menggunakan pendingin, yang menghemat energi dan mengurangi biaya pengoperasian."
Topik lainnya adalah bagaimana NVIDIA memanfaatkan AI untuk merancang chip AI-nya menggunakan Verilog, bahasa deskripsi perangkat keras yang telah digunakan selama empat puluh tahun untuk mendeskripsikan sirkuit dalam kode. NVIDIA memajukan upaya ini melalui agen Verilog otonom yang disebut VerilogCoder.

Ia berkata, "Para peneliti kami telah mengembangkan model bahasa yang besar yang dapat mempercepat pembuatan kode Verilog yang menggambarkan sistem kami. Kami akan menggunakannya dalam generasi produk mendatang untuk membantu membangun kode-kode ini. Model ini dapat melakukan banyak hal. Model ini dapat membantu mempercepat proses desain dan verifikasi. Model ini dapat mempercepat operasi manual desain dan pada dasarnya mengotomatiskan banyak tugas."
