AMD смята, че може да реши проблема с захранването/топлината с чиплети и код

Share

Интервю Полупроводниците стават все по-горещи през последните няколко години, тъй като законът на Мур се забави и е необходима повече мощност, за да се постигне по-висока производителност на поколенията.

Поради това производителите на чипове трябва да бъдат креативни относно това как проектират и създават чипове, така че дори и да консумират повече енергия, да го правят по възможно най-ефективния начин. Не е достатъчно дизайнерът на чип да опакова повече транзистори в чип и да го нарече ден, казва техническият директор на AMD Марк Пейпърмастър пред The Register .

„Това вече не работи… Това беше в ерата на закона на Мур, когато новият възел щеше да ми даде възможността да опаковам повече транзистори, които са по-производителни и нямаше да увеличи енергията… това отдавна отмина.“

Това е проблем, който AMD изследва от години. Компанията стартира инициативата 30×25 през 2021 г. с цел до 2025 г. да осигури 30-кратно подобрение на изчислителната ефективност спрямо базовото ниво от 2020 г.

И докато тези усилия представляват очевидни предимства за устойчивостта на компютрите, стремежът на AMD да повиши производителността на ват на своите чипове наистина е въпрос на оцеляване.

Както главният изпълнителен директор Лиза Су илюстрира толкова ясно в своята основна бележка на ISSC по-рано тази година, като се има предвид сегашното темпо на технологиите, докато суперкомпютър от клас zetaFLOP със сигурност е възможен в рамките на около 10 години, той ще изисква толкова много мощност, за да бъде напълно практичен. По нейна оценка подобна машина ще изисква повече от 500 MW, за да работи.

С бързото приближаване на крайния срок на AMD бизнесът с чипове постигна значителен напредък, но все още има да извърви дълъг път, след като досега е постигнал само 13,5 пъти подобрение.

Издърпване на напредналия пакетиращ лост

Това е невероятно сложен проблем за решаване и няма голям лост, който можете да дръпнете, за да го разрешите, обяснява Papermaster. „Ние сме на такава експоненциална крива както на изчисленията, така и на по-високото потребление на енергия, че това, за което [вие] трябва да помислите, е какви са лостовете, които имате, за да огънете кривата.“

От самото начало AMD набляга на комбинация от общи, ускорени и специфични за домейн изчислителни възможности, адресирани до голяма степен от портфолиото от CPU, GPU, FPGA и IP на ускорителя.

AMD също така инвестира сериозно в редица технологии, включително чиплети и усъвършенствани опаковки, за да проектира около границите на съвременните техники за производство на полупроводници.

Един от първите начини, по които AMD оптимизира енергийната ефективност, беше чрез десегрегиране на изчисленията от I/O и памет и след това използване на най-добрата налична технология за процеси за всеки от тях. Мисленето е, че някои елементи се мащабират по-добре с процеса на свиване, отколкото други. Това е причината процесорите Epyc 4 на AMD да използват 6nm процесен възел за I/O и 5nm възел за изчислителните матрици.

Този подход може да бъде разширен чрез използването на усъвършенствани опаковки, за да се увеличи плътността на един продукт отвъд границата на прицелната мрежа. Точно това направи AMD със своите ускорители от серия MI300 , обявени тази седмица. Предлага се във форм фактор APU и GPU, чипът се сглобява от до 13 по-малки чиплета — без да се броят осемте стека памет с висока честотна лента — и ги свързва заедно с помощта на високопроизводителни силиконови връзки.

Говорейки за MI300A — „A“ тук означава APU – AMD всъщност разработи технология, наречена Smart Shift, за динамично разпределяне на мощността между 24-те Zen 4 ядра на чипа и неговите шест CDNA 3 GPU матрици в зависимост от натоварването.

Горещите чипове само ще стават още по-горещи

Този подход не променя факта, че законът на Мур се забавя. Опаковането на повече изчисления в един пакет ще изисква повече мощност, но помага да се намали количеството, необходимо за преместване на данни.

„Колкото повече можете да интегрирате, толкова по-малко енергия ще трябва да изразходвате, за да преминете към [Serializer Deserializers] — това води до доста енергия… — но идват иновации,“ каза той.

Въпреки това по-горещите чипове все още представляват предизвикателство по отношение на управлението на топлината. Както вече съобщихме, по-високите TDP вече причиняват главоболия на операторите на центрове за данни, особено на тези, които искат да внедрят AI инфраструктура в мащаб.

Papermaster твърди, че тези предизвикателства не са непреодолими и представляват възможност по отношение на топлинното управление от следващо поколение и инфраструктурата на центъра за данни

„Докато изграждат този център за данни, си струва да инвестират в усъвършенствано охлаждане. Струва си да имат водещо предимство, нови източници на възобновяема енергия и нови географски местоположения, които са по-идеални за разполагане на тези центрове за данни,“ той каза. „Мисля, че има цяла нова област на иновации в усъвършенстваното охлаждане, по-добри термични материали, по-добри системи за отвеждане на топлината.“

И с тези технологии Papermaster очаква AMD и други ще могат да издигнат още по-високи цели за мощност. „Не виждам, че сме на максимална мощност по никакъв начин“, казва той.

Софтуерна възможност

Въпреки това, отвъд подобренията на ниво архитектура, пакетиране и системи, Papermaster набляга на възможността, предоставена от разработването на по-добър софтуер.

„Следващата граница е постигането на по-задълбочено партньорство чрез софтуерния стек. Вече започнахме да работим в тясно сътрудничество с водещите практикуващи AI… компании като Microsoft, като Oracle, Lamini и това, което направихме с Mosaic ML“, казва той. „Тези видове партньорства наистина ни дават представа за това какво можем да направим, като оптимизираме с играчите, които предоставят софтуерното решение.“

Видяхме част от напредъка на AMD, който стимулира по-висока производителност чрез софтуерни подобрения с пускането на софтуерната платформа ROCm 6 тази седмица. Само чрез оптимизиране на основните софтуерни рамки, AMD казва, че е успяла да подобри производителността на LLM за модели, използващи vLLM, HIP Graph и Flash Attention с някъде от 1,3x до 2,6x.

ROCm 6, комбиниран с архитектурните подобрения, донесени от ускорителите от серията MI300, доведе до 8x подобрение в латентността на изводите за модела Llama 2 със 70 милиарда параметри в сравнение с MI250 на ROCm 5. ®

Подобни статии

Не пропускайте