NVIDIA A100 Tensor Core-GPU

Nie dagewesene Beschleunigung in jeder Größenordnung

Beschleunigung der wichtigsten Arbeit unserer Zeit

Die NVIDIA A100 Tensor Core-GPU bietet nie dagewesene Beschleunigung in jeder Größenordnung für die weltweit leistungsstärksten elastischen Rechenzentren in den Bereichen KI, Datenanalysen und HPC. A100 basiert auf der NVIDIA Ampere-Architektur und ist der zentrale Bestandteil der Rechenzentrumsplattform von NVIDIA. A100 bietet eine bis zu 20-mal höhere Leistung gegenüber der Vorgängergeneration und lässt sich in sieben Grafikprozessorinstanzen partitionieren, um sich dynamisch an veränderliche Anforderungen anzupassen. Die A100 80 GB verwendet erstmals die höchste Speicherbandbreite der Welt mit über 2 Terabyte pro Sekunde (TB/s), um auch die größten Modelle und Datensätze zu bewältigen.

Enterprise-fähige Software für KI

Die NVIDIA EGX-Plattform umfasst optimierte Software, die beschleunigtes Computing in der gesamten Infrastruktur ermöglicht. NVIDIA AI Enterprise bietet Unternehmen eine Cloud-native End-to-End-Softwaresuite für KI und Datenanalyse, die von NVIDIA für die Ausführung auf VMware vSphere mit NVIDIA-zertifizierten Systemen optimiert, zertifiziert und unterstützt wird. NVIDIA AI Enterprise umfasst wichtige unterstützende Technologien von NVIDIA für die schnelle Bereitstellung, Verwaltung und Skalierung von KI-Workloads in der modernen Hybrid Cloud.

Die leistungsstärkste End-to-End-Rechenzentrumsplattform für KI und HPC

A100 ist Teil der kompletten NVIDIA-Lösung für Rechenzentren, die Bausteine für Hardware, Netzwerke, Software, Bibliotheken und optimierte KI-Modelle und -Anwendungen von NGC umfasst. Er repräsentiert die leistungsstärkste End-to-End-KI- und HPC-Plattform für Rechenzentren und ermöglicht es Forschern, realistische Ergebnisse zu liefern und Lösungen in der entsprechenden Größenordnung bereitzustellen.

 

Video zur Entstehung von Ampere

Deep-Learning-Training

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

Die Komplexität von KI-Modellen steigt rapide, um neuen Herausforderungen wie Konversations-KI gerecht zu werden. Ihr Training erfordert enorme Rechenleistung und Skalierbarkeit.

Die Tensor-Recheneinheiten des NVIDIA A100 mit Tensor Float(TF32)-Präzision bieten bis zu 20-mal mehr Leistung gegenüber NVIDIA Volta, erfordern dafür keine Code-Änderungen und bieten einen zusätzlichen 2-fachen Boost mit automatischer gemischter Präzision und FP16. In Kombination mit NVIDIA® NVLink®, NVIDIA NVSwitch, PCI Gen4, NVIDIA® Mellanox® InfiniBand® und dem NVIDIA Magnum IO-SDK ist die Skalierung auf Tausende A100-Grafikprozessoren möglich.

Trainings-Workloads wie BERT können in großem Maßstab mit 2.048 A100-GPUs in unter einer Minute gelöst werden, was einen Weltrekord in der Lösungszeit darstellt.

Bei den größten Modellen mit massiven Datentabellen wie Deep-Learning-Empfehlungsmodellen (Deep Learning Recommendation Models, DLRMs) erreicht der A100 80 GB bis zu 1,3 TB vereinheitlichten Arbeitsspeicher pro Knoten und bietet bis zu 3-mal mehr Durchsatz als der A100 40 GB.

Die Führungsrolle von NVIDIA in MLPerf wurde durch mehrere Leistungsrekorde bei KI-Trainings-Benchmarks in der ganzen Branche gefestigt.

Inferenz für Deep Learning

Mit dem A100 werden bahnbrechende Funktionen zur Optimierung von Inferenzworkloads eingeführt. Er beschleunigt das gesamte Präzisionsspektrum, von FP32 bis INT4. Durch die Mehr-Instanzen-Grafikprozessortechnologie (MIG) können mehrere Netze gleichzeitig auf einer einzelnen A100-GPU ausgeführt werden, um die Rechenressourcen optimal zu nutzen. Zusätzlich zu den anderen Inferenzleistungssteigerungen des A100 bietet die strukturelle Sparsity bis zu 2-mal mehr Leistung.

Für hochmoderne Konversations-KI-Modelle wie BERT bietet der A100 einen bis zu 249-mal schnelleren Inferenzdurchsatz gegenüber CPUs.

Bei den komplexesten Modellen mit beschränkten Batchgrößen, wie RNN-T für automatische Spracherkennung, verdoppelt die erhöhte Speicherkapazität des A100 80GB die Größe jeder MIG und liefert so einen 1,25-mal größeren Durchsatz als der A100 40 GB.

NVIDIA bewies marktführende Leistung bei der Inferenz in MLPerf. Der A100 baut diese Führung mit 20-mal mehr Leistung weiter aus.

Bis zu 249-mal höhere Leistung bei KI-Inferenz
gegenüber CPUs

BERT-LARGE-Inferenz

Bis zu 249-mal höhere Leistung bei KI-Inferenz  gegenüber CPUs

Bis zu 1,25-mal höhere Leistung bei KI-Inferenz
gegenüber A100 40 GB

RNN-T-Inferenz: Single Stream

Bis zu 1,25-mal höhere Leistung bei KI-Inferenz  gegenüber A100 40 GB

High-Performance Computing

Um Entdeckungen der nächsten Generation zugänglich zu machen, nutzen Wissenschaftler Simulationen, damit wir die Welt um uns herum besser verstehen.

NVIDIA A100 führt Tensor-Recheneinheiten mit doppelter Präzision ein und stellt somit den größten Leistungssprung für HPC seit der Einführung von GPUs dar. In Kombination mit 80 GB des schnellsten Grafikspeichers können Forscher eine vormals 10-stündige Simulation auf A100 mit doppelter Präzision auf weniger als vier Stunden verkürzen. HPC-Anwendungen können zudem TF32 nutzen und erreichen so einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Für die HPC-Anwendungen mit den größten Datensätzen bietet der zusätzliche Speicherplatz der A100 80 GB eine bis zu 2-fache Steigerung des Durchsatzes in Quantum Espresso, einer Materialsimulation. Der enorme Arbeitsspeicher und die unübertroffene Speicherbandbreite machen den A100 80 GB zur idealen Plattform für Workloads der nächsten Generation.

11-mal mehr HPC-Leistung in vier Jahren

Führende HPC-Anwendungen

11-mal mehr HPC-Leistung  in vier Jahren

Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen

Quantum Espresso

Bis zu 1,8-mal höhere Leistung  für HPC-Anwendungen

Leistungsstarke Datenanalyse

Bis zu 83-mal schneller als die CPU, 2-mal schneller als A100 40 GB im Big-Data-Analyse-Benchmark

Bis zu 83-mal schneller als die CPU, 2-mal schneller als A100 40 GB im Big-Data-Analyse-Benchmark

Datenwissenschaftler müssen in der Lage sein, umfangreiche Datensätze zu analysieren, zu visualisieren und Erkenntnisse aus ihnen zu gewinnen. Doch Lösungen zur horizontalen Skalierung funktionieren oft nicht optimal, weil Datensätze auf mehreren Servern verteilt sind.

Beschleunigte Server mit A100 liefern die nötige Rechenleistung, um solche Workloads zu bewältigen – zusammen mit einem enormen Arbeitsspeicher, einer Speicherbandbreite von 2 Terabyte pro Sekunde (TB/s) sowie Skalierbarkeit über NVIDIA® NVLink® und NVSwitch. In Kombination mit InfiniBand, NVIDIA Magnum IO und der RAPIDS-Suite an Open-Source-Bibliotheken, einschließlich des RAPIDS Accelerator für Apache Spark für GPU-beschleunigte Datenanalysen, beschleunigt die Rechenzentrumsplattform von NVIDIA diese enormen Workloads mit unübertroffener Leistung und Effizienz.

In einem Big-Data-Analyse-Benchmark lieferte der A100 80 GB Erkenntnisse mit 83-mal höherem Durchsatz als CPUs und eine 2-mal höhere Leistung als der A100 40 GB, womit er ideal für neue Workloads mit immensen Datensätzen geeignet ist.

Unternehmensfähige Auslastung

7-mal höherer Inferenzdurchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

BERT Große Inferenz

7-mal höherer Inferenzdurchsatz mit Mehr-Instanzen-Grafikprozessor (MIG)

A100 mit MIG optimiert die Auslastung GPU-beschleunigter Infrastruktur. Mit MIG lässt sich eine A100-GPU in bis zu sieben unabhängige Instanzen partitionieren, sodass mehrere Nutzer zeitgleich von der GPU-Beschleunigung profitieren können. Beim A100 40 GB können jeder MIG-Instanz bis zu 5 GB zugeteilt werden, durch die erhöhte Speicherkapazität wird dies beim A100 80 GB auf 10 GB verdoppelt.

MIG arbeitet mit Kubernetes, Containern und hypervisorbasierter Servervirtualisierung. MIG ermöglicht es der Infrastrukturverwaltung, jeder Aufgabe eine maßgeschneiderte GPU mit garantierter Servicequalität (QoS) zuzuweisen, wodurch jeder Nutzer Zugang zu den beschleunigten Computing-Ressourcen erhält.

Das Beste aus Ihren Systemen herausholen

Ein von NVIDIA zertifiziertes System, bestehend aus A100 und NVIDIA Mellanox SmartnNICs und DPUs wird hinsichtlich Leistung, Funktionalität, Skalierbarkeit und Sicherheit validiert, sodass Unternehmen problemlos Komplettlösungen für KI-Workloads aus dem NVIDIA NGC-Katalog bereitstellen können.

GPUs für Rechenzentren

NVIDIA A100 für HGX

NVIDIA A100 für HGX

Ultimative Leistung für alle Workloads.

NVIDIA A100 für PCIe

NVIDIA A100 für PCIe

Höchstmaß an Vielseitigkeit für alle Workloads.

Technische Daten

  A100 80 GB PCIe A100 80 GB SXM
FP64 9,7 TFLOPS
FP64-Tensor-Core 19,5 TFLOPS
FP32 19,5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16-Tensor-Recheneinheit 312 TFLOPS | 624 TFLOPS*
FP16-Tensor-Recheneinheit 312 TFLOPS | 624 TFLOPS*
INT8-Tensor-Recheneinheit 624 TOPS | 1248 TOPS*
GPU-Speicher 80 GB HBM2e 80 GB HBM2e
GPU-Speicherbandbreite 1.935 GB/s 2.039 GB/s
Max. Thermal Design Power (TDP) 300 W 400 W ***
Mehr-Instanzen-GPU Bis zu 7 MIGs mit 10 GB Bis zu 7 MIGs mit 10 GB
Formfaktor PCIe
Zwei Steckplätze mit Luftkühlung oder ein Steckplatz mit Flüssigkeitskühlung
SXM
Zusammenschaltung NVIDIA® NVLink®-Brücke
für 2 Grafikprozessoren: 600 GB/s **
PCIe Gen4: 64 GB/s
NVLink: 600 GB/s
PCIe Gen4: 64 GB/s
Serveroptionen Partner und NVIDIA-Certified Systeme™ mit 1-8 GPUs NVIDIA HGX™ A100-Partner und NVIDIA-zertifizierte Systeme mit 4, 8 oder 16 GPUs NVIDIA DGX™ A100 mit 8 GPUs
 

Die neuesten MLPerf-Benchmarkdaten lesen

Einblick in die NVIDIA Ampere-Architektur

Erfahren Sie, was bei der NVIDIA Ampere-Architektur und ihrer Implementierung im NVIDIA A100-Grafikprozessor neu ist.