הופר (מיקרו-ארכיטקטורה)

הופר (באנגלית: Hopper) היא מיקרו-ארכיטקטורת יחידת עיבוד גרפית (GPU) שפותחה על ידי Nvidia. היא מיועדת למרכזי נתונים ומקביל לעדה לאבלייס.

ארכיטקטורת הופר, שנקראה על שם מדענית המחשב ואדמירל משנה של צי ארצות הברית גרייס הופר, הודלפה בנובמבר 2019 ונחשפה רשמית במרץ 2022. היא משפרת את קודמיו, מיקרו-ארכיטקטורות טיורינג ואמפיר, הכולל מעבד מרובה סטרימינג חדש ומערכת זיכרון מהירה יותר.

ארכיטקטורה

ה-Nvidia Hopper H100 מיושם באמצעות תהליך TSMC 4N עם 80 מיליארד טרנזיסטורים. הוא מורכב מעד 144 מעבדי זרימה מרובים. ב־SXM5, Nvidia Hopper H100 מציע ביצועים טובים יותר מאשר PCIe.

מולטיפרוססור לסטרימינג

מעבדי הסטרימינג של הופר משפרים את המיקרו-ארכיטקטורות טיורינג ואמפיר, אם כי המספר המרבי של "ווארפים" בו-זמניים לכל מעבד זרימה (SM) נשאר זהה בין ארכיטקטורות אמפיר והופר, 64. ארכיטקטורת הופר מספקת מאיץ זיכרון Tensor (TMA), התומך בהעברת זיכרון אסינכרוני דו-כיווני בין זיכרון משותף לזיכרון גלובלי. תחת TMA, יישומים עשויים להעביר עד טנסור 5D, כלומר טנסור בעל 5 ממדים. בעת כתיבה מזיכרון משותף לזיכרון גלובלי, ניתן להשתמש באופרטורים בהפחתה אלמנטית ובאופר סיביות, תוך הימנעות מרשמים והוראות SM תוך מתן אפשרות למשתמשים לכתוב קודי ווארפ מיוחדים. TMA נחשף באמצעות cuda::memcpy_async

כאשר ממקבלים יישומים, מפתחים יכולים להשתמש באשכולות thread block. "בלוקי חוטים" אלה עשויים לבצע פעולות אטומיות בזיכרון המשותף של בלוקי חוטים אחרים בתוך האשכול שלו, הידוע גם בשם זיכרון משותף מבוזר. זיכרון משותף מבוזר עשוי לשמש SM בו-זמנית עם מטמון L2, כאשר משתמשים בו לתקשורת נתונים בין SMs, יכול לנצל את רוחב הפס המשולב של זיכרון משותף מבוזר ו-L2. גודל האשכול הנייד המרבי הוא 8, למרות שה-Nvidia Hopper H100 יכול לתמוך בגודל אשכול של 16 על ידי שימוש בפונקציה cudaFuncAttributeNonPortableClusterSizeAllowed, במחיר של מספר מופחת של בלוקים פעילים. עם L2 multicasting וזיכרון משותף מבוזר, רוחב הפס הנדרש לקריאה וכתיבה בזיכרון בגישה אקראית מצטמצם.^[1]

הופר כולל תפוקה משופרת של פורמט נקודה צפה (FP32) ברמת דיוק בודדת עם פי שניים יותר פעולות FP32 למחזור לכל SM מאשר קודמו. בנוסף, ארכיטקטורת הופר מוסיפה תמיכה בהוראות חדשות, כולל אלגוריתם Smith–Waterman. כמו אמפר, אריתמטיקה של TensorFloat-32 (TF-32) נתמכת. דפוס המיפוי עבור שתי הארכיטקטורות זהה.

לקריאה נוספת

Choquette, Jack (במאי 2023). "NVIDIA Hopper H100 GPU: Scaling Performance". IEEE Micro. 43 (3): 9–17. doi:10.1109/MM.2023.3256796. נבדק ב-29 במאי 2023. {{cite journal}}: (עזרה)
Moore, Samuel (8 באפריל 2022). "Nvidia's Next GPU Shows That Transformers Are Transforming AI". IEEE Spectrum. נבדק ב-29 במאי 2023. {{cite web}}: (עזרה)
Morgan, Timothy (31 במרץ 2022). "Deep Dive Into Nvidia's "Hopper" GPU Architecture". The Next Platform. נבדק ב-29 במאי 2023. {{cite web}}: (עזרה)

הערות שוליים

^ Vishal Mehta (בספטמבר 2022). CUDA Programming Model for Hopper Architecture (באנגלית). Santa Clara: Nvidia. נבדק ב-29 במאי 2023. {{cite AV media}}: (עזרה)

[NVIDIAVid-1] Vishal Mehta (בספטמבר 2022). CUDA Programming Model for Hopper Architecture (באנגלית). Santa Clara: Nvidia. נבדק ב-29 במאי 2023. {{cite AV media}}: (עזרה)

[1]