MLPerf™-Benchmarks, die von MLCommons, einem Konsortium von KI-Führern aus Wissenschaft, Forschungslabors und Industrie entwickelt wurden, sind darauf ausgelegt, unvoreingenommene Bewertungen von Trainings- und Inferenzleistung für Hardware, Software und Services zu liefern. Sie werden alle unter vorgeschriebenen Bedingungen durchgeführt. Um auf dem neuesten Stand der Branchentrends zu bleiben, entwickelt sich MLPerf weiter, führt in regelmäßigen Abständen neue Tests durch und fügt neue Workloads hinzu, die den modernsten Stand der Technik in der KI repräsentieren.
MLPerf Inference v4.1 misst die Inferenzleistung auf neun verschiedenen Benchmarks, darunter mehrere große Sprachmodelle (LLMs), Text-zu-Bild, Verarbeitung natürlicher Sprache, Empfehlungsgeber, Computer Vision und medizinische Bildsegmentierung.
MLPerf Training v4.0 misst die Trainingsleistung auf neun verschiedenen Benchmarks, einschließlich LLM-Vor-Training, LLM-Feinabstimmung, Text-zu-Bild, Neuronales Netzwerk für Graphen (GNN), Computer Vision, Medizinische Bildsegmentierung und Empfehlung.
MLPerf HPC v3.0 misst die Trainingsleistung in vier verschiedenen wissenschaftlichen Computing-Anwendungsfällen, darunter Identifikation klimaatmosphärischer Flüsse, Vorhersage kosmologischer Parameter, Quantenmolekulare Modellierung und Proteinstrukturvorhersage.
Die NVIDIA-beschleunigte Computing-Plattform, die von NVIDIA HopperTM-GPUs und NVIDIA Quantum-2 InfiniBand-Netzwerken unterstützt wird, lieferte die höchste Leistung in jedem Benchmark in MLPerf Training v4.0. Beim LLM-Benchmark verdreifachte NVIDIA die Leistung in nur einem Jahr durch eine Rekordanzahl von 11.616 H100-GPUs und Software-Optimierungen. NVIDIA lieferte auch 1,8-mal mehr Leistung im Text-zu-Bild-Benchmark in nur sieben Monaten. Und bei den neu hinzugefügten Benchmarks LLM-Feinabstimmung sowie Neuronale Graphennetzwerke setzte NVIDIA neue Maßstäbe. NVIDIA erreichte diese außergewöhnlichen Ergebnisse durch unermüdliches Full-Stack-Engineering im Rechenzentrumsmaßstab.
Ergebnisse MLPerfTM Training v3.1 und v4.0 abgerufen von www.mlperf.org am 12. Juni 2024 aus den folgenden Einträgen: NVIDIA + CoreWeave 3.0-2003, NVIDIA 4.0-0007. Der Name und das Logo von MLPerfTM sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Unbefugte Nutzung ist strengstens untersagt. Siehe www.mlcommons.org für weitere Informationen.
Die NVIDIA-Plattform zeigt weiterhin unübertroffene Leistung und Vielseitigkeit im MLPerf Training v4.0. NVIDIA hat bei allen neun Benchmarks die höchste Leistung erbracht und bei folgenden Benchmarks neue Rekorde aufgestellt: LLM, LLM-Feinabstimmung, Text-zu-Bild, neuronales Graphennetzwerk und Objekterkennung (leicht).
Benchmark | Time to Train |
---|---|
LLM (GPT-3 175B) | 3.4 minutes |
LLM Fine-Tuning (Llama 2 70B-LoRA) | 1.5 minutes |
Text-to-Image (Stable Diffusion v2) | 1.4 minutes |
Graph Neural Network (R-GAT) | 1.1 minutes |
Recommender (DLRM-DCNv2) | 1.0 minutes |
Natural Language Processing (BERT) | 0.1 minutes |
Image Classification (ResNet-50 v1.5) | 0.2 minutes |
Object Detection (RetinaNet) | 0.8 minutes |
Biomedical Image Segmentation (3D U-Net) | 0.8 minutes |
Ergebnisse MLPerf™ Training v4.0 abgerufen von www.mlperf.org am 12. Junit 2024 aus den folgenden Einträgen: NVIDIA 4.0-0058, NVIDIA 4.0-0053, NVIDIA 4.0-0007, NVIDIA 4.0-0054, NVIDIA 4.0-0053, NVIDIA + CoreWeave 4.0-0008, NVIDIA 4.0-0057, NVIDIA 4.0-0056, NVIDIA 4.0-0067. Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Die unbefugte Nutzung ist strengstens untersagt. Weitere Informationen finden Sie auf www.mlcommons.org.
Bei seinem MLPerf Inference-Debüt lieferte die NVIDIA Blackwell-Plattform mit dem NVIDIA Quasar Quantization System eine bis zu viermal höhere LLM-Leistung im Vergleich zur vorherigen Generation der H100 Tensor Core GPU. Unter den verfügbaren Lösungen lieferte die NVIDIA H200 Tensor Core GPU, basierend auf der NVIDIA Hopper-Architektur, die höchste Leistung pro GPU für generative KI, einschließlich aller drei LLM-Benchmarks, darunter Llama 2 70B, GPT-J und die neu hinzugefügte Mixture-of-Experts LLM, Mixtral 8x7B, sowie der Stable Diffusion XL Text-to-Image-Benchmark. Durch die unermüdliche Softwareoptimierung stieg die Leistung von H200 in weniger als sechs Monaten um bis zu 27 Prozent. Für generative KI am Edge lieferte NVIDIA Jetson Orin™ hervorragende Ergebnisse, mit einer Steigerung des GPT-J-Durchsatzes um mehr als das 6-fache und einer Reduzierung der Latenz um das 2,4-fache in nur einem Durchgang.
MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Blackwell-Ergebnisse gemessen auf einzelner GPU und abgerufen von Eintrag 4.1-0074 in der Kategorie Closed, Preview. H100-Ergebnisse von Eintrag 4.1-0043 in der Kategorie Closed, Available auf einem 8 x H100-System und geteilt durch GPU-Zahl für den GPU-Vergleich. Der Pro-GPU-Durchsatz ist keine primäre Metrik von MLPerf Inference. Der Name und das Logo von MLPerf sind eingetragene und nicht eingetragene Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org.
Benchmark | Offline | Server |
---|---|---|
Llama 2 70B | 34,864 tokens/second | 32,790 tokens/second |
Mixtral 8x7B | 59,022 tokens/second | 57,177 tokens/second |
GPT-J | 20,086 tokens/second | 19,243 tokens/second |
Stable Diffusion XL | 17.42 samples/second | 16.78 queries/second |
DLRMv2 99% | 637,342 samples/second | 585,202 queries/second |
DLRMv2 99.9% | 390,953 samples/second | 370,083 queries/second |
BERT 99% | 73,310 samples/second | 57,609 queries/second |
BERT 99.9% | 63,950 samples/second | 51,212 queries/second |
RetinaNet | 14,439 samples/second | 13,604 queries/second |
ResNet-50 v1.5 | 756,960 samples/second | 632,229 queries/second |
3D U-Net | 54.71 samples/second | Not part of benchmark |
MLPerf Inference v4.1 Closed, Data Center. Ergebnisse abgerufen von www.mlperf.org am 28. August 2024. Alle Ergebnisse mit acht GPUs und aus den folgenden Einträgen abgerufen: 4.1-0046, 4.1-0048, 4.1-0050. Der Name und das Logo von MLPerf sind eingetragene und nicht eingetragene Marken der MLCommons Association in den USA und anderen Ländern. Alle Rechte vorbehalten. Unbefugte Nutzung ist strengstens untersagt. Siehe www.mlcommons.org für weitere Informationen.
Der NVIDIA H100 Tensor Core hat die NVIDIA-Plattform für HPC und KI mit seinem MLPerf HPC v3.0-Debüt mit einer bis zu 16-fach schnelleren Trainingsdauer in nur drei Jahren und der höchsten Leistung bei allen Workloads sowohl bei den Trainings- als auch bei den Durchsatzmetriken ausgestattet. Die NVIDIA-Plattform war auch die einzige, die Ergebnisse für jede MLPerf HPC-Workload vorlegte, die die Bereiche Klimasegmentierung, Vorhersage kosmologischer Paramter, Quantenmolekularmodellierung und die neueste Ergänzung, Proteinstrukturvorhersage, umfassen. Die unübertroffene Leistung und Vielseitigkeit der NVIDIA-Plattform macht sie zum Instrument der Wahl für die nächste Welle von KI-gestützten wissenschaftlichen Entdeckungen.
NVIDIA Full-Stack-Innovation fördert Leistungssteigerungen
Ergebnisse MLPerf™ HPC v3.0 abgerufen von www.mlperf.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 0.7-406, 0.7-407, 1.0-1115, 1.0-1120, 1.0-1122, 2.0-8005, 2.0-8006 , 3.0-8006, 3.0-8007, 3.0-8008. CosmoFlow-Score in v1.0 ist auf neue RCPs normalisiert, die in MLPerf HPC v2.0 eingeführt wurden. Die Ergebnisse für v0.7, v1.0 und v2.0 werden angepasst, um die Daten-Staging-Zeit aus dem Benchmark zu entfernen, im Einklang mit den neuen Regeln, die für v3.0 angenommen wurden, um faire Vergleiche zwischen den Einreichungsrunden zu ermöglichen. Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org
Ergebnisse MLPerf™ HPC v3.0 abgerufen von www.mlperf.org am 8. November 2023. Ergebnisse abgerufen von Einträgen 3.0-8004, 3.0-8009 und 3.0-8010. Der Name und das Logo von MLPerf™ sind Marken der MLCommons Association in den Vereinigten Staaten und anderen Ländern. Alle Rechte vorbehalten. Unautorisierte Nutzung ist strengstens verboten. Weitere Informationen finden Sie auf www.mlcommons.org.
Die Komplexität der KI erfordert eine enge Integration aller Aspekte der Plattform. Wie die Benchmarks von MLPerf zeigen, bietet die NVIDIA-KI-Plattform führende Leistung mit der weltweit fortschrittlichsten GPU, leistungsstarken und skalierbaren Verbindungstechnologien und modernster Software – eine End-to-End-Lösung, die im Rechenzentrum, in der Cloud oder am Edge mit erstaunlichen Ergebnissen eingesetzt werden kann.
Als wesentlicher Bestandteil der NVIDIA-Plattform und der Ergebnisse von MLPerf Trainings und Inference ist der NGC™-Katalog ein Knotenpunkt für GPU-optimierte KI-, HPC- und Datenanalysesoftware, die End-to-End-Workflows vereinfacht und beschleunigt. Mit über 150 Containern auf Unternehmensniveau – darunter Workloads für generative KI, Gesprächs-KI und Empfehlungssysteme, Hunderten von KI-Modellen sowie branchenspezifischen SDKs, die vor Ort, in der Cloud oder am Edge bereitgestellt werden können – ermöglicht NGC Datenwissenschaftlern, Forschern und Entwicklern, erstklassige Lösungen zu erstellen, Erkenntnisse zu erlangen und schneller als je zuvor Geschäftswerte zu erzielen.
Um weltweit führende Ergebnisse bei Training und Inferenz zu erzielen, ist eine Infrastruktur erforderlich, die speziell für die weltweit komplexesten KI-Herausforderungen entwickelt wurde. Die NVIDIA-KI-Plattform bietet führende Leistung, die von der NVIDIA Blackwell-Plattform, der Hopper-Plattform, NVLink™, NVSwitch™ und Quantum InfiniBand unterstützt wird. Diese sind das Herzstück der NVIDIA-Rechenzentrumsplattform, dem Motor hinter unserer Benchmark-Leistung.
Darüber hinaus liefern NVIDIA DGX™-Systeme die Skalierbarkeit, schnelle Bereitstellung und unglaubliche Rechenleistung, die jedem Unternehmen die Möglichkeit bieten, eine KI-Infrastruktur der Spitzenklasse aufzubauen.
NVIDIA Jetson Orin bietet beispiellose KI-Rechenleistung, großen einheitlichen Arbeitsspeicher und umfassende Software-Stacks, die eine überlegene Energieeffizienz für die neuesten generativen KI-Anwendungen bieten. Es ist in der Lage, schnelle Inferenzen für alle generativen KI-Modelle zu führen, die von der Transformer-Architektur unterstützt werden, und bietet auf MLPerf eine überragende Edge-Performance.
Erfahren Sie mehr über die Leistung unserers Rechenzentrums bei Training und Inferenz.