Ó¢ÌØ¶ûÏêÏ¸½éÉÜPonte Vecchio ÐÔÄÜ¿É´ïÓ¢Î°´ïA100Æ½Ì¨µÄ2.5±¶

ÔÚ Hot Chips 34 ´ó»áÆÚ¼ä£¬Ó¢ÌØ¶ûÔÙ´ÎÏêÏ¸½éÉÜÁË Sapphire Rapids HBM ´¦ÀíÆ÷ + Ponte Vecchio£¨2-Stack£©GPU Æ½Ì¨µÄÇ±Á¦£¬³Æ¸Ã·þÎñÆ÷Æ½Ì¨µÄÐÔÄÜ¿É´ïÓ¢Î°´ï A100 ¾ºÆ·µÄ 2.5 ±¶¡£Ó¢ÌØ¶ûÊ×Ï¯ GPU ¼ÆËã¼Ü¹¹Ê¦ Hong Jiang ÔÚÑÝ½²ÖÐÖ¸³ö£¬Ponte Vecchio ¾ßÓÐÈýÖÖÅäÖÃ¡£

£¨via?WCCFTech£©

´Óµ¥Ò» OAM¡¢µ½Åä±¸ Xe Links µÄ x4 ×ÓÏµÍ³£¬Ponte Vecchio GPU ²»½öÄÜ¹»µ¥¶ÀÔËÐÐ¡¢Ò²¿É²¿ÊðÓÚ Sapphire Rapids Ë«Â··þÎñÆ÷Æ½Ì¨Ö®ÉÏ¡£

ÆäÖÐ OAM Ö§³Ö 4 GPU ºÍ 8 GPU Æ½Ì¨µÄ all-to-all ÍØÆË£¬¸¨ÒÔÓ¢ÌØ¶û oneAPI Èí¼þ¶ÑÕ»¡£

×÷ÎªÒ»¸öÁã¼¶£¨Level Zero£©API£¬ÆäÎª¿ç¼Ü¹¹±à³ÌÖ§³ÖÌá¹©ÁËµÍ²ã¼¶µÄÓ²¼þ½Ó¿Ú¡£

oneAPI Ö÷ÒªÌØÐÔÈçÏÂ£º

¡ñ Ìá¹©ÃæÏòÆäËü¹¤¾ßºÍ¼ÓËÙÆ÷Éè±¸µÄ½Ó¿Ú£»
¡ñ Ö§³Ö¾«Ï¸µÄÔöÒæ¿ØÖÆ¡¢ÒÔ¼°µÍÑÓ³ÙµÄ¼ÓËÙÆ÷ÌØÐÔ£»
¡ñ ¾ßÓÐ¶àÏß³ÌÉè¼Æ£»
¡ñ ½« GPU ×÷ÎªÇý¶¯³ÌÐòµÄÒ»²¿·Ö¶øÌá¹©¡£

ÐÔÄÜÖ¸±ê·½Ãæ£¬2-Stack Ponte Vecchio GPU ÅäÖÃ£¨Èçµ¥Ò» OAM ÉÏµÄÅäÖÃ£©£¬¿ÉÌá¹©¸ß´ï 52 TFLOP µÄ FP64 / FP32 ËãÁ¦¡£

ÁíÓÐ 419 TFLOP µÄ TF32£¨XMX Float 32£©¡¢839 TFLOP µÄ BF16 / FP16£¬ÒÔ¼° 1678 TFLOPs µÄ INT8 ËãÁ¦¡£

Ó¢ÌØ¶û»¹ÏêÏ¸ËµÃ÷ÁË Ponte Vecchio µÄ»º´æ´óÐ¡ / ·åÖµ´ø¿í ¡ª¡ª ±ÈÈç GPU ÉÏµÄ¼Ä´æÆ÷Îª 64 MB£¬Ìá¹© 419 TB/s µÄ´ø¿í¡£

L1 »º´æÒ²Îª 64 MB£¬´ø¿í 105 TB/s£¨4:1£©¡£L2 »º´æÎª 408 MB£¬´ø¿í 13 TB/s£¨8:1£©¡£HBM ÄÚ´æ³Ø¸ß´ï 128 GB£¬¸¨ÒÔ 4.2 TB/s£¨4:1£©µÄ´ø¿í¡£

ÒÔÏÂÊÇÓ¢ÌØ¶ûÎª Ponte Vecchio Åä±¸µÄÏµÁÐ¼ÆËãÐ§ÂÊ£¨compute efficiency£©¼¼Êõ¡£

¡ñ Register Caching£¨¼Ä´æÆ÷»º´æ£©
¡ñ Accumulators£¨ÀÛ¼ÓÆ÷£©

L1 / L2 Cache£º

¡ñ Write Through£¨Ö±Ð´£©
¡ñ Write Back£¨»ØÐ´£©
¡ñ Write Streaming£¨Á÷Ê½Ð´Èë£©
¡ñ Uncached£¨²»»º´æ£©

Prefetch£¨Ô¤È¡£©£º

¡ñ Ö§³Ö L1 ºÍ£¨»ò£©L2 »º´æµÄÈí¼þ£¨Ö¸Áî£©Ô¤È¡£»
¡ñ Ö§³Öµ½ L2 »ñÈ¡Ö¸ÁîºÍÊý¾ÝµÄ Command Streamer Ô¤È¡¡£

Ó¢ÌØ¶û½âÊÍ³Æ£¬¸ü´óµÄ L2 »º´æ£¬¿ÉÎª 2D-FFT ºÍ DNN µÈ¹¤×÷¸ºÔØ´øÀ´¾Þ´óµÄÐ§Òæ£¬²¢ÇÒ·ÖÏíÁËÍêÕû Ponte Vecchio GPU ºÍ 80 / 32 MB Ä£¿éÖ®¼äµÄÒ»Ð©ÐÔÄÜ±È½Ï¡£

´ËÍâÓ¢ÌØ¶û°á³öÁËÔËÐÐ CUDA ºÍ SYCL µÄÓ¢Î°´ï Ampere A100£¬ÓëÊ¹ÓÃ SYCL µÄ Ponte Vecchio GPU Æ½Ì¨Õ¹¿ªÁËÐÔÄÜºá±È¡£

ÔÚ miniBUDE£¨Ò»ÖÖ¿ÉÔ¤²âÅäÌåÓëÄ¿±ê½áºÏÄÜµÄ¼ÆËã¹¤×÷¸ºÔØ£©ÖÐ£¬Ponte Vecchio GPU Ä£Äâ²âÊÔ½á¹ûµÄËÙ¶È£¬¸üÊÇ Ampere A100 µÄ 2 ±¶¡£

ÁíÍâÔÚ ExaSMR ºË·´Ó¦¶ÑÉè¼Æ·ÂÕæÉè¼ÆÖÐ£¬Ó¢ÌØ¶û Ponte Vecchio GPU Ò²ÒÔ 1.5 ±¶ÁìÏÈÓÚÓ¢Î°´ï¾ºÆ··½°¸¡£

²»¹ýÐèÒªÖ¸³öµÄÊÇ£¬Ó¢Î°´ïÔçÒÑÏòÊÐ³¡Í¶·ÅÁËÐÔÄÜ¸ü¼ÓÇ¿º·µÄ Hopper H100£¬ËùÒÔÓ¢ÌØ¶ûÕâÀïÄÃ Ampere A100 ½øÐÐ±È½Ï»¹ÊÇÏàµ±Í¶»úÈ¡ÇÉµÄ¡£

ÑÔ¹éÕý´«£¬Ó¢ÌØ¶û¸ÅÊöÁË Ponte Vecchio Æì½¢Êý¾ÝÖÐÐÄ GPU µÄÒ»Ð©¹Ø¼üÌØÐÔ£¬ÀýÈç 128 ¸ö Xe ÄÚºË¡¢128 ¸ö¹â×·£¨RT£©µ¥Ôª¡¢HBM2e ÏÔ´æ¡¢ÒÔ¼°Á¬½Óµ½Ò»ÆðµÄ 8 ¸ö Xe-HPC GPU ¡£

¸ÃÐ¾Æ¬ÔÚÁ½¸ö¶ÀÁ¢µÄ¶ÑÕ»ÖÐÌá¹©ÁË¸ß´ï 408 MB µÄ L2 »º´æ¡¢Ö®¼äÍ¨¹ý EMIB »¥Á¬£¬ÇÒ¸÷²¿·ÖÐ¾Æ¬»ìÓÃÁË Intel 7 ºÍÌ¨»ýµç N7 / N5 µÈ¶à¸ö¹¤ÒÕ½Úµã¡£

ÓÉÁ½¿é£¨2 Tiles£©×é³ÉµÄÃ¿¸ö¶ÑÕ»ÓÐ 16 ÂãÆ¬£¬×î´óµÄ active die ³ß´çÎª 41 m©O¡¢Compute Tile ÔòÊÇ 650 m©O ¡£

ÒÔÏÂÊÇ Ponte Vecchio GPU µÄÍêÕûÐ¡Ð¾Æ¬ / ¹¤ÒÕ½ÚµãÃèÊö£º

¡ñ Ó¢ÌØ¶û 7nm
¡ñ Ì¨»ýµç 7nm
¡ñ Foveros 3D ·â×°
¡ñ EMIB »¥Á¬
¡ñ 10nm ÔöÇ¿ÐÍ Super Fin
¡ñ Rambo Cache
¡ñ HBM2 ¸ß´ø¿íÏÔ´æ

ÒÔÏÂÊÇÓ¢ÌØ¶û Ponte Vecchio Ð¾Æ¬µÄ 47 ¿é£¨Tiles£©×é³É£º

¡ñ 16 ¸ö Xe HPC£¨ÄÚ/Íâ²¿£©
¡ñ 8 ¸ö Rambo Cache£¨ÄÚ²¿£©
¡ñ 2 ¸ö Xe Base£¨ÄÚ²¿£©
¡ñ 11 ¸ö EMIB£¨ÄÚ²¿£©
¡ñ 2 ¸ö Xe Link£¨Íâ²¿£©
¡ñ 8 ¸ö HBM£¨Íâ²¿£©

Ponte Vecchio GPU Ê¹ÓÃÁË 8 ¸ö HBM 8-Hi ¶ÑÕ»£¬×Ü¹²°üº¬ 11 ¸ö EMIB »¥Á¬£¬ÍêÕû·â×°³ß´çÎª 4843.75 m©O ¡£

Éè¼ÆÖÐ»¹Ìáµ½ÁË¸ßÃÜ¶È 3D Forveos ·â×°µÄ Meteor Lake CPU£¬¿ÉÖªÆä bump pitch µÄ¼ä¾àÎª 36u ¡£

¡¾×Ü½á¡¿Ponte Vecchio GPU ²»ÊÇÒ»¸öµ¥¶ÀµÄÐ¾Æ¬£¬¶øÊÇÓÉ 47 ¸ö²»Í¬¹¤ÒÕÖÆ³ÌµÄÐ¡Ð¾Æ¬¡°×éºÏ¡±µÃÀ´¡£

ÒÅº¶µÄÊÇ£¬ÊÜÓ¢ÌØ¶û¶à´ÎÌøÆ±µÄÓ°Ïì£¬Ê¹ÓÃ Ponte Vecchio GPU ºÍ Sapphire Rapids CPU µÄ Aurora ³¬¼¶¼ÆËã»úÏîÄ¿Ò²±»ÆÈÍÆ³Ù¡£

ÉÏÒ»Æª:ÏûÏ¢³ÆÆ»¹û³ÉÎªLGµç×Ó×¨ÀûÊÚÈ¨¿Í»§ ÒÑÖ§¸¶³¬¹ý8000ÒÚº«ÔªÊÚÈ¨·Ñ

¸ü¶à¾«²ÊÄÚÈÝ£º

Ó¢ÌØ¶û Ó¢ÌØ¶û¼Ü¹¹ Ð¾Æ¬ gpu·þÎñÆ÷

Ïà¹ØÎÄÕÂ

Ó¢ÌØ¶ûÏêÏ¸½éÉÜPonte Vecchio ÐÔÄÜ¿É´ïÓ¢Î°´ïA100Æ½

ÓÃ»§ÆÀÂÛ

·¢ÆÀÂÛËÍ»ý·Ö£¬²ÎÓë¾ÍÓÐ½±Àø£¡

·¢±íÆÀÂÛ

ÆÀÂÛÄÚÈÝ£º·¢±íÆÀÂÛ²»ÄÜÇë²»Òª³¬¹ý250×Ö£»·¢±íÆÀÂÛÇë×Ô¾õ×ñÊØ»¥ÁªÍøÏà¹ØÕþ²ß·¨¹æ¡£

ÓÃ»§Ãû£º