MLPerf-Benchmarks

Die NVIDIA AI-Plattform erreicht erstklassige Leistung und Vielseitigkeit bei MLPerf Trainings-, Inferenz- und HPC-Benchmarks für die anspruchsvollsten, realen KI-Workloads.

Was ist MLPerf?

MLPerf™-Benchmarks, die von MLCommons, einem Konsortium von KI-Führern aus Wissenschaft, Forschungslabors und Industrie entwickelt wurden, sind darauf ausgelegt, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services zu liefern. Sie werden alle unter vorgeschriebenen Bedingungen durchgeführt. Um auf dem neuesten Stand der Branchentrends zu bleiben, entwickelt sich MLPerf weiter, führt in regelmäßigen Abständen neue Tests durch und fügt neue Workloads hinzu, die den modernsten Stand der Technik in der KI repräsentieren.

Innerhalb der MLPerf Benchmarks

MLPerf Inference v4.1 misst die Inferenzleistung auf neun verschiedenen Benchmarks, darunter mehrere große Sprachmodelle (LLMs), Text-zu-Bild, Verarbeitung natürlicher Sprache, Empfehlungsgeber, Computer Vision und medizinische Bildsegmentierung.

MLPerf Training v4.0 misst die Trainingsleistung auf neun verschiedenen Benchmarks, einschließlich LLM-Vor-Training, LLM-Feinabstimmung, Text-zu-Bild, Neuronales Netzwerk für Graphen (GNN), Computer Vision, Medizinische Bildsegmentierung und Empfehlung.

MLPerf HPC v3.0 misst die Trainingsleistung in vier verschiedenen wissenschaftlichen Computing-Anwendungsfällen, darunter Identifikation klimaatmosphärischer Flüsse, Vorhersage kosmologischer Parameter, Quantenmolekulare Modellierung und Proteinstrukturvorhersage. 

Große Sprachmodelle

Deep-Learning-Algorithmen, die auf umfangreichen Datensätzen trainiert werden und Inhalte für eine Vielzahl von Anwendungsfällen erkennen, zusammenfassen, übersetzen, vorhersagen und generieren können.
Details.

Text-to-Image

Erzeugt Bilder aus Textaufforderungen.
Details.

Empfehlung

Erbringt personalisierte Ergebnisse in nutzerorientierten Diensten wie Social Media oder E-Commerce-Websites, indem sie Interaktionen zwischen Nutzern und Dienstleistungen wie Produkten oder Anzeigen versteht.
Details.

Objekterkennung (leicht)

Findet Instanzen von realen Objekten wie Gesichtern, Fahrrädern und Gebäuden in Bildern oder Videos und gibt eine Begrenzungsbox um jedes Objekt herum an.
Details.

Neuronales Netzwerk für Graphen

Verwendet neuronale Netze, die für die Arbeit mit als Graphen strukturierten Daten entwickelt wurden.
Details.

Bildklassifikation

Weist einem Eingabebild eine Bezeichnung aus einer festen Menge von Kategorien zu, d.h. es gilt für Computer Vision-Probleme.
Details.

Verarbeitung natürlicher Sprache (NLP)

Versteht Text, indem die Beziehung zwischen verschiedenen Wörtern in einem Textblock verwendet wird. Ermöglicht die Beantwortung von Fragen, Satzparaphrasierung und viele andere sprachbezogene Anwendungsfälle.
Details.

Biomedizinische Bildsegmentierung

Führt volumetrische Segmentierung von dichten 3D-Bildern für medizinische Anwendungsfälle durch.
Details.

Identifikation klimatmosphärischer Flüsse

Identifizieren Sie Hurrikane und atmosphärische Flüsse in Klimasimulationsdaten.
Details.

Vorhersage der kosmologischen Parameter

Löst ein 3D-Bildregressionsproblem auf kosmologischen Daten.
Details.

Quantenmolekulare Modellierung

Vorhersage von Energien oder molekularen Konfigurationen.
Details.

Proteinstrukturvorhersage

Vorhersage dreidimensionale Proteinstruktur basierend auf eindimensionaler Aminosäure-Konnektivität.
Details.

NVIDIA MLPerf Benchmark-Ergebnisse

Die NVIDIA-beschleunigte Computing-Plattform, die von NVIDIA HopperTM-GPUs und NVIDIA Quantum-2 InfiniBand-Netzwerken unterstützt wird, lieferte die höchste Leistung in jedem Benchmark in MLPerf Training v4.0. Beim LLM-Benchmark verdreifachte NVIDIA die Leistung in nur einem Jahr durch eine Rekordanzahl von 11.616 H100-GPUs und Software-Optimierungen. NVIDIA lieferte auch 1,8-mal mehr Leistung im Text-zu-Bild-Benchmark in nur sieben Monaten. Und bei den neu hinzugefügten Benchmarks LLM-Feinabstimmung sowie Neuronale Graphennetzwerke setzte NVIDIA neue Maßstäbe. NVIDIA erreichte diese außergewöhnlichen Ergebnisse durch unermüdliches Full-Stack-Engineering im Rechenzentrumsmaßstab.

NVIDIA stellt mit der bisher größten MLPerf-Einreichung einen neuen Schulungsrekord für große Sprachmodelle auf

Ergebnisse MLPerfTM Training v3.1 und v4.0 abgerufen von www.mlperf.org am 12. Juni 2024 aus den folgenden Einträgen: NVIDIA + CoreWeave 3.0-2003, NVIDIA 4.0-0007. Der Name und das Logo von MLPerfTM sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Unbefugte Nutzung ist strengstens untersagt. Siehe www.mlcommons.org für weitere Informationen.

NVIDIA liefert weiterhin die höchste Leistung bei jedem MLPerf-Trainingstest

Die NVIDIA-Plattform zeigt weiterhin unübertroffene Leistung und Vielseitigkeit im MLPerf Training v4.0. NVIDIA hat bei allen neun Benchmarks die höchste Leistung erbracht und bei folgenden Benchmarks neue Rekorde aufgestellt: LLM, LLM-Feinabstimmung, Text-zu-Bild, neuronales Graphennetzwerk und Objekterkennung (leicht).

Leistung in maximaler Größe

Benchmark Time to Train
LLM (GPT-3 175B) 3.4 minutes
LLM Fine-Tuning (Llama 2 70B-LoRA) 1.5 minutes
Text-to-Image (Stable Diffusion v2) 1.4 minutes
Graph Neural Network (R-GAT) 1.1 minutes
Recommender (DLRM-DCNv2) 1.0 minutes
Natural Language Processing (BERT) 0.1 minutes
Image Classification (ResNet-50 v1.5) 0.2 minutes
Object Detection (RetinaNet) 0.8 minutes
Biomedical Image Segmentation (3D U-Net) 0.8 minutes

Ergebnisse MLPerf™ Training v4.0 abgerufen von www.mlperf.org am 12. Junit 2024 aus den folgenden Einträgen: NVIDIA 4.0-0058, NVIDIA 4.0-0053, NVIDIA 4.0-0007, NVIDIA 4.0-0054, NVIDIA 4.0-0053, NVIDIA + CoreWeave 4.0-0008, NVIDIA 4.0-0057, NVIDIA 4.0-0056, NVIDIA 4.0-0067. Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die unbefugte Nutzung ist strengstens untersagt. Weitere Informationen finden Sie auf www.mlcommons.org.

Bei seinem MLPerf Inference-Debüt lieferte die NVIDIA Blackwell-Plattform mit dem NVIDIA Quasar Quantization System eine bis zu viermal höhere LLM-Leistung im Vergleich zur vorherigen Generation der H100 Tensor Core GPU. Unter den verfügbaren Lösungen lieferte die NVIDIA H200 Tensor Core GPU, basierend auf der NVIDIA Hopper-Architektur, die höchste Leistung pro GPU für generative KI, einschließlich aller drei LLM-Benchmarks, darunter Llama 2 70B, GPT-J und die neu hinzugefügte Mixture-of-Experts LLM, Mixtral 8x7B, sowie der Stable Diffusion XL Text-to-Image-Benchmark. Durch die unermüdliche Softwareoptimierung stieg die Leistung von H200 in weniger als sechs Monaten um bis zu 27 Prozent. Für generative KI am Edge lieferte NVIDIA Jetson Orin™ hervorragende Ergebnisse, mit einer Steigerung des GPT-J-Durchsatzes um mehr als das 6-fache und einer Reduzierung der Latenz um das 2,4-fache in nur einem Durchgang.

NVIDIA Blackwell liefert einen großen Sprung für LLM Inference

Server

4 X

Offline

3,7 X

KI Superchip

208 B Transistoren

2. Generation Transformer-Engine

FP4/FP6 Tensor Core

5. Generation NVLINK

Skalierbar auf 576 GPUs

RAS-Engine

100 % In-System-Selbsttest

Sichere KI

Leistungsstarke Verschlüsselung und TEE

Dekompressions-Engine

800 GB/s


MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Blackwell-Ergebnisse gemessen auf einzelner GPU und abgerufen von Eintrag 4.1-0074 in der Kategorie Closed, Preview. H100-Ergebnisse von Eintrag 4.1-0043 in der Kategorie Closed, Available auf einem 8 x H100-System und geteilt durch GPU-Zahl für den GPU-Vergleich. Der Pro-GPU-Durchsatz ist keine primäre Metrik von MLPerf Inference. Der Name und das Logo von MLPerf sind eingetragene und nicht eingetragene Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org.

H200 liefert außergewöhnlichen Multi-GPU-Inferenzdurchsatz bei jedem Benchmark

Benchmark Offline Server
Llama 2 70B 34,864 tokens/second 32,790 tokens/second
Mixtral 8x7B 59,022 tokens/second 57,177 tokens/second
GPT-J 20,086 tokens/second 19,243 tokens/second
Stable Diffusion XL 17.42 samples/second 16.78 queries/second
DLRMv2 99% 637,342 samples/second 585,202 queries/second
DLRMv2 99.9% 390,953 samples/second 370,083 queries/second
BERT 99% 73,310 samples/second 57,609 queries/second
BERT 99.9% 63,950 samples/second 51,212 queries/second
RetinaNet 14,439 samples/second 13,604 queries/second
ResNet-50 v1.5 756,960 samples/second 632,229 queries/second
3D U-Net 54.71 samples/second Not part of benchmark



MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Alle Ergebnisse mit acht GPUs und aus den folgenden Einträgen abgerufen: 4.1-0046, 4.1-0048, 4.1-0050. Der Name und das Logo von MLPerf sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Unbefugte Nutzung ist strengstens untersagt. Siehe www.mlcommons.org für weitere Informationen.

Der NVIDIA H100 Tensor Core hat die NVIDIA-Plattform für HPC und KI mit seinem MLPerf HPC v3.0-Debüt mit einer bis zu 16-fach schnelleren Trainingsdauer in nur drei Jahren und der höchsten Leistung bei allen Workloads sowohl bei den Trainings- als auch bei den Durchsatzmetriken ausgestattet. Die NVIDIA-Plattform war auch die einzige, die Ergebnisse für jede MLPerf HPC-Workload vorlegte, die die Bereiche Klimasegmentierung, Vorhersage kosmologischer Paramter, Quantenmolekularmodellierung und die neueste Ergänzung, Proteinstrukturvorhersage, umfassen. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl für die nächste Welle von KI-gestützten wissenschaftlichen Entdeckungen.

Bis zu 16-mal mehr Leistung in drei Jahren

NVIDIA Full-Stack-Innovation fördert Leistungssteigerungen

Ergebnisse MLPerf™ HPC v3.0 abgerufen von www.mlperf.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122,  2.0-8005, 2.0-8006 , 3.0-8006, 3.0-8007, 3.0-8008. CosmoFlow-Score in v1.0 ist auf neue RCPs normalisiert, die in MLPerf HPC v2.0 eingeführt wurden. Die Ergebnisse für v0.7, v1.0 und v2.0 werden angepasst, um die Daten-Staging-Zeit aus dem Benchmark zu entfernen, im Einklang mit den neuen Regeln, die für v3.0 angenommen wurden, um faire Vergleiche zwischen den Einreichungsrunden zu ermöglichen. Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org

 

Ergebnisse MLPerf™ HPC v3.0 abgerufen von www.mlperf.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 3.0-8004, 3.0-8009 und 3.0-8010.  Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org.

Die Technologie hinter den Ergebnissen

Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, bietet die NVIDIA-KI-Plattform führende Leistung mit der weltweit fortschrittlichsten GPU, leistungsstarken und skalierbaren Verbindungstechnologien und modernster Software – eine End-to-End-Lösung, die im Rechenzentrum, in der Cloud oder am Edge mit erstaunlichen Ergebnissen eingesetzt werden kann.

Optimierte Software zur Beschleunigung von KI-Workflows

Als wesentlicher Bestandteil der NVIDIA-Plattform und der Ergebnisse von MLPerf Trainings und Inference ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – darunter Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.

Erstklassige KI-Infrastruktur

Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, ist eine Infrastruktur erforderlich, die speziell für die weltweit komplexesten KI-Herausforderungen entwickelt wurde. Die NVIDIA-KI-Plattform bietet führende Leistung, die von der NVIDIA Blackwell-Plattform, der Hopper-Plattform, NVLink™, NVSwitch™ und Quantum InfiniBand unterstützt wird. Diese sind das Herzstück der NVIDIA-Rechenzentrumsplattform, dem Motor hinter unserer Benchmark-Leistung.

Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen. 

Erschließung generativer KI am Netzwerkrand mit transformativer Leistung

NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, großen einheitlichen Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen bieten. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.

Erfahren Sie mehr über die Leistung unserers Rechenzentrums bei Training und Inferenz.

Große Sprachmodelle

MLPerf Training verwendet das generative Sprachmodell GPT-3 mit 175 Milliarden Parametern und einer Sequenzlänge von 2.048 auf dem C4-Datensatz für die LLM-Pre-Training-Workload. Für den LLM-Feinabstimmungstest das Llama 2 70B-Modell mit dem GovReport-Dataset mit Sequenzlängen von 8.192.

MLPerf Inference verwendet das Llama 2 70B-Modell mit dem OpenORCA-Datensatz; das Mixtral 8x7B-Modell mit den OpenORCA-, GSM8K- und MBXP-Datensätzen; und das GPT-J-Modell mit dem CNN-DailyMail-Datensatz.

Text-to-Image

MLPerf Training verwendet das Stable Diffusion v2 Text-to-Image-Modell, das auf dem LAION-400M-gefilterten Datensatz trainiert wurde.

MLPerf Inference verwendet das Stable Diffusion XL (SDXL) Text-zu-Bild-Modell mit einer Teilmenge von 5.000 Aufforderungen aus dem coco-val-2014-Datensatz. 

Empfehlung

MLPerf Training und Inference verwenden das Deep Learning Recommendation Model v2 (DLRMv2), welches das DCNv2-Cross-Layer und einen aus dem Criteo-Datensatz synthetisierten Multi-Hot-Datensatz anwendet.

Objekterkennung (leicht)

MLPerf Training verwendet Single-Shot Detector (SSD) mit ResNeXt50 Backbone auf einer Teilmenge des Google OpenImages-Datasets.

Neuronales Netzwerk für Graphen

MLPerf Training verwendet R-GAT mit dem Illinois Graph Benchmark (IGB) - Heterogener Datensatz.

Bildklassifikation

MLPerf Training und Inference verwenden ResNet v1.5 mit dem ImageNet-Datensatz.

Verarbeitung natürlicher Sprache (NLP)

MLPerf Training verwendet bidirektionale Encoder-Darstellungen von Transformern (BERT) im Wikipedia 2020/01/01-Datensatz.

MLPerf Inference verwendet BERT mit dem SQuAD v.1.1 Datensatz.

Biomedizinische Bildsegmentierung

MLPerf Training und Inference nutzen 3D U-Net mit dem KiTS19-Datensatz.

Klima Atmosphärische Flussidentifikation

Verwendet das DeepCAM-Modell mit CAM5 und TECA-Simulationsdataset.

Vorhersage der kosmologischen Parameter

Verwendet das CosmoFlow-Modell mit dem CosmoFlow-N-Körper-Simulationsdatensatz.

Quantenmolekulare Modellierung

Verwendet das DimeNet++-Modell mit dem Open Catalyst 2020-Datensatz (OC20).

Proteinstrukturvorhersage

Verwendet das OpenFold-Modell, das auf dem OpenProteinSet-Dataset trainiert wurde.