Зміст

  • Все в дата-центри
  • Процесори EPYC з’являться в Amazon Web Services
  • Архітектура Zen 2 і серверні процесори EPYC «Rome»
  • Прискорювачі обчислень Radeon Instinct на основі Vega 7 нм
  • Нові горизонти AMD все чіткіше вимальовуються

Все в дата-центри

Останнім часом все більшу увагу виробників апаратного забезпечення приваблює ринок високопродуктивних обчислень і центрів зберігання і обробки даних (далі для стислості — ЦОД або дата-центри). Воно й не дивно, хоча у довгостроковій стратегії тієї ж компанії AMD залишається на своєму місці і графіка: ігрова, професійна, системи віртуальної реальності, але все більша увага переноситься на рішення для систем обробки, зберігання і розповсюдження даних.

Ринок ЦОД зараз особливо активно розвивається і здатний ще сильніше вплинути на те, як все влаштовано в нашому світі. А головне для комерційних компаній — він має досить великий обсяг, виражений в грошових знаках і сумами з багатьма нулями. Це дуже привабливий ринок як для традиційних систем AMD на основі CPU (серверні процесори EPYC), так і прискорювачів паралельних обчислень на GPU — сімейство Radeon Instinct.

За підрахунками компанії AMD, загальний обсяг цього ринку повинен становити 21 млрд доларів в 2021 році, і зовсім не дивно, що всі компанії вступили в щільну боротьбу за цей ласий шматок. Хтось вже знаходиться там і намагається додатково зміцнити свої позиції, а хто-то з боєм проривається на ринок ЦОД, пропонуючи більш привабливі рішення.

На минулому в листопаді заході Next Horizon, компанія AMD продемонструвала своє прагнення до того, щоб урвати максимально можливий шматок ринку ЦОД. Ними були представлені різні обчислювальні продукти, розроблені для розширення можливостей сучасних ЦОД: наступне покоління серверних процесорів EPYC з революційною компонуванням і нові рішення для паралельних обчислень серії Radeon Instinct, засновані на поліпшеному графічному процесорі, зробленому по самому досконалому техпроцесу.

Сучасні обчислювальні завдання вимагають величезних обчислювальних можливостей, просунутого штучного інтелекту, аналізу великих обсягів даних, хмарних рішень і віртуалізації ресурсів. Більше того, нинішні ЦОД вимагають нових підходів. Якщо умовний десяток років тому споживачі рішень були порівняно дрібними, то тепер це великі компанії, що займають велику частину ринку. Раніше вони використовували власне програмне забезпечення, то тепер все частіше намагаються обмежуватися відкритим, ну і багато що переходить в хмарні обчислення.

Для того щоб відповідати всім сучасним вимогам, потрібно своєчасно проводити зміни в архітектурі CPU і GPU, вводити швидкі з’єднання між обчислювальними вузлами і пропонувати індустрії чіткі плани на майбутнє — як планується змінювати можливості і продуктивність майбутніх рішень. Тоді у партнерів і інвесторів компанії буде чітке розуміння того, як будувати подальші відносини.

Ще в минулому році компанія AMD увірвалася на ринок ЦОД зі своїми серверними рішеннями сімейства EPYC, які виявилися досить конкурентоспроможними в різних цінових сегментах, пропонуючи більшу кількість обчислювальних ядер, підтримку більшого обсягу пам’яті і міжвузлових з’єднань, і особливо — унікальні цінові пропозиції, що дозволяють знизити як початкові витрати на обладнання, так і сукупну вартість володіння (Total Cost of Ownership — TCO).

Може в AMD і трохи перебільшили перевага по економії коштів на цьому слайді, але EPYC дійсно став кращим вибором для багатьох комерційних і наукових завдань, начебто прогнозування погоди та молекулярної динаміки. Саме тому серверні процесори EPYC вибрали для суперкомп’ютерів Cray різного призначення, включаючи потужну систему для однієї з команд Формули — 1- Haas, і це далеко не єдине подібне рішення.

У сфері паралельних обчислювальних рішень непоганим вибором став Radeon Instinct MI25, спеціально розроблений для високопродуктивних і хмарних систем, що пропонує досить високу продуктивність в 25 терафлопса. А для того, щоб розкрити можливості цього рішення, була запропонована перша платформа для обчислень на GPU з відкритим вихідним кодом — ROCm, оптимізована для високопродуктивних паралельних обчислень, спеціалізовані бібліотеки для глибокого навчання і т. п.

Індустрія досить непогано прийняла рішення компанії AMD останнього часу, особливо EPYC, і список партнерів (OEM/ODM-виробників, системних інтеграторів, хмарних сервісів і т. п.) до теперішнього часу досить великий і він лише збільшується. Зокрема, на заході Next Horizon було анонсовано співробітництво AMD з Amazon Web Services (AWS), яке передбачає використання серверних процесорів AMD EPYC в хмарних рішеннях цієї компанії.

Процесори EPYC з’являться в Amazon Web Services

На недавньому заході компанії AMD і Amazon Web Services оголосили про те, що процесори AMD EPYC скоро будуть доступні на Amazon Elastic Compute Cloud (EC2) в трьох конфігураціях. Пропозиції на основі EPYC доповнять популярні сімейства инстансов AWS унікальними характеристиками з кращої щільністю ядер і пропускною здатністю пам’яті, забезпечуючи найвищу продуктивність на долар при різних видах навантажень.

Основна перевага таких систем досягається за рахунок високої кількості ядер в процесорах EPYC, які запропонують замовникам инстансов M5 і T3 збалансовану обчислювальну потужність, обсяг пам’яті та мережевих ресурсів для серверів, інфраструктури корпоративних додатків і середовищ тестування і розробки з прозорими механізмами міграції додатків. Висока пропускна здатність пам’яті у EPYC також відмінно підходить для аналізу даних та динамічної обробки інформації і є важливою перевагою инстансов R5.

Поява відразу декількох инстансов Amazon EC2, заснованих на процесорах EPYC, є важливим кроком для AMD на шляху впровадження серверних процесорів компанії в центри обробки даних таких відомих компаній, які оцінили комбінацію з великої кількості ядер, високої пропускної здатності пам’яті і великої кількості ліній вводу-виводу. Все це дозволило створити рішення, здатне забезпечити зниження сукупної вартості володіння для замовників (в особі AWS) і відповідне зниження цін на послуги для кінцевих користувачів. За даними компанії AMD, їх рішення виявилися приблизно на 10% вигідніше, порівняно з конкуруючими при типових навантаженнях.

Инстансы M5 і R5 доступні в шести варіантах: з числом vCPU до 96 і оперативною пам’яттю до 768 ГБ, а инстансы T3 будуть пропонуватися в семи варіантах, з числом vCPU до 8 і оперативною пам’яттю до 32 ГБ. Нові инстансы доступні в родинах Amazon EC2 в варіантах для загального використання з оптимізацією пам’яті. Инстансы R5 і M5 на базі процесорів EPYC вже доступні в Східній і Західній Америці, Ірландії та Азіатсько-Тихоокеанському регіоні, але в планах компанії AMD є запуск пропозицій і в інших регіонах. Инстансы T3 на основі EPYC стануть доступними протягом листопада.

Архітектура Zen 2 і серверні процесори EPYC «Rome»

На своєму заході, присвяченому високопродуктивним системам і дата-центрах, компанія AMD вперше розкрила деякі цікаві подробиці про свою майбутню високопродуктивної x86-сумісні архітектурі для універсальних процесорів — Zen 2. Найочевидніше його перевага полягає в тому, що цей багатоядерний процесор буде випускатися по самому досконалому на даний момент 7 нм техпроцесу.

Цей техпроцес — досить великий крок вперед для глобального напівпровідникового виробництва, який вимагає дуже великих інвестицій. Новий техпроцес дозволяє отримати помітно кращі характеристики по щільності транзисторів (до двох разів) при меншому енергоспоживанні (наполовину при тій же продуктивності) і більш високій частоті і продуктивності — до 25% приросту при збереженні того ж споживання.

Виходить, що компанія AMD вперше навіть трохи обігнала свого конкурента Intel в підготовці нових CPU, використовують самі просунуті техпроцеси. Якщо раніше вони хоч і трохи, але все ж відставали від конкурента, що має власні фабрики, то тепер перехопили перевагу за рахунок успіхів тайванського виробника TSMC по освоєнню 7 нм техпроцесу і невдач конкурує з ними компанії Intel щодо освоєння їх варіанти — 10 нм техпроцесу (незважаючи на пристойну різницю в цифрах, за характеристиками ці техпроцеси близькі).

Але далеко не тільки переходом на 7 нм цікавий Zen 2, його відмінності від попереднього покоління набагато більш вражаючі. Так, у нових процесорах застосовується революційна модульна конструкція, яка використовує поліпшену версію Infinity Fabric для з’єднання окремих елементів кремнію («чиплетов») в єдиному процесорі.

Тобто, на відміну від першого покоління Zen, в наступному сімействі універсальних процесорів компанії AMD самі обчислювальні ядра відокремлені від усієї логіки вводу-виводу (контролерів пам’яті тощо), але всі вони з’єднуються з центральним ядром вводу-виводу, який містить усі «відсутні» блоки:

Наприклад, на малюнку показаний варіант з одним центральним ядром і двома чиплетами, але їх може бути і більше. Такий універсальний підхід забезпечує і більш високу продуктивність — більша кількість ядер CPU при такому ж енергоспоживанні (втім, це заява AMD ще потребує перевірки). Головне, що така модульна конструкція забезпечує менші витрати на виробництво, порівняно з традиційними монолітними чіпами, які б мали просто величезний розмір кристала при великій кількості обчислювальних ядер.

Кожна частина CPU використовує найбільш відповідну технологію виробництва — високопродуктивні ядра добре масштабуються і вимагають максимально «тонкого» техпроцесу, а ядру вводу-виводу буде цілком достатньо і менш просунутого 14 нм — але з поліпшеними характеристиками щодо споживання і затримок. І якщо самі високопродуктивні ядра Zen 2 отримують переваги використання нової технології 7 нм TSMC, то для частини процесора, що відповідає за введення-виведення даних, використовується більш простий 14 нм техпроцес GlobalFoundries.

Це — дуже цікаве рішення, що об’єднує кристали, вироблені не тільки з різними технологічними процесами, але навіть різними заводами! Воно дає виробнику необхідну гнучкість, дозволяючи отримати оптимальний результат для кожного типу кристалів у складі єдиного процесора. В теорії, подібним чином можна буде в майбутньому об’єднати на одній підкладці відразу і CPU і GPU. Хоча до цього поки що не дійшли, але вже дуже таке рішення напрошується, хоч і не для серверних продуктів — їм і так треба дуже багато тепла відводити. А ось для ноутбуків і інших компактних систем (ігрових консолей?) цілком можна.

Ось так виглядає модульний варіант Zen 2 з вісьмома чиплетами і одним центральним ядром. Всі контролери пам’яті розташовані на ядрі введення-виведення, а не розкидані по ядрам, як в Zen 1. З одного боку, це знизить ПСП для частини даних, з іншого — такий уніфікований підхід зблизить затримки для всіх ядер процесора. AMD говорить про поліпшення, як затримок, так і пропускної здатності. Мабуть, мова йде про середні значення, так як подібна архітектура дозволяє зблизити затримки для всіх ядер і зробити їх більш передбачуваними.

Вже поєднання настільки незвичайного дизайну і переваг технології виробництва, дає Zen 2 значні поліпшення в продуктивності, енергоспоживання і щільності транзисторів у порівнянні з попереднім поколінням Zen. Така модульна конструкція також може скоротити операційні витрати на підтримку ЦОД і знизити потребу в охолодженні. Втім, є й потенційні недоліки — внутричиповые з’єднання у великому кристалі завжди будуть швидше, ніж та ж Infinity Fabric, нехай і покращена. Але про це ми докладно поговоримо вже при практичному дослідженні можливостей Zen 2, коли будуть відомі всі деталі організації підсистеми пам’яті, кешування даних і т. д.

У числі інших переваг Zen 2, у порівнянні з архітектурою першого покоління, можна відзначити: покращений конвеєр, ефективніше постачає дані обчислювальним движкам, удосконалення прогнозування розгалужень і попередньої вибірки даних, оптимізований кеш інструкцій і збільшений об’єм кеш-пам’яті.

Також фахівці AMD не обійшли увагою і один з головних недоліків Zen — продуктивність обчислень з плаваючою комою. У другому поколінні мікроархітектури вони подвоїли ємність і збільшили пропускну здатність завантаження і зберігання для операцій з плаваючою комою до 256-біт, а також збільшили пропускну здатність внутрішніх потоків даних у всіх режимах роботи CPU.

Приріст продуктивності в нових процесорів очікується від підвищення кількості виконуваних операцій за такт на кожному ядрі, так і від збільшення кількості ядер на сокет. AMD говорить мало не про чотириразове збільшення загальної продуктивності нових серверних процесорів в обчисленнях з плаваючою комою, в порівнянні з першим поколінням EPYC.

Обов’язково потрібно відзначити і просунуті функції безпеки нових процесорів: апаратні модифікації, протидіючі вразливостей типу Spectre, міграція на рівні дизайну і розширені можливості по шифруванню даних в пам’яті.

Крім розповіді про деяких (далеко не усіх нас цікавлять!) особливості Zen 2, представники компанії AMD розповіли і про прийдешнє оновлення сімейства серверних процесорів EPYC. Компанія вперше продемонструвала процесор нового покоління наживо і розкрила перші подробиці про продуктивність EPYC нового покоління, відомих під кодовим ім’ям «Rome».

Нова лінійка EPYC буде складатися з моделей, що мають до 64 ядер Zen 2 (вісім CPU-чиплетов за вісім ядер), мають збільшену продуктивність (до чотирьох разів швидше в операціях з плаваючою комою в перерахунку на сокет), що мають доступ до пам’яті за допомогою восьмиканального контролера DDR4-пам’яті з підтримкою до 4 ТБ на сокет і збільшену пропускну спроможність підсистеми вводу/виводу.

Також це буде перший в галузі x86-сумісний процесор, призначений для серверів, що має підтримку PCI Express 4.0 з подвоєною пропускною здатністю, що дозволить збільшити продуктивність дата-центрів — у них також можна використовувати прискорювачі обчислень Radeon Instinct MI60 для додаткового прискорення деяких типів обчислень.

Перші зразки сімейства «Rome» вже надаються замовникам, а масова доступність обіцяна на 2019 рік, ці CPU стануть першими в світі високопродуктивними x86-сумісними процесорами, виробленими за 7 нм техпроцесу.

Що ще більш важливо, компанія оголосила про сумісність з існуючими платформами AMD EPYC першого покоління. Процесори сімейства «Rome» сумісні з гнізда з існуючими платформами EPYC «Naples» і будуть сумісні з майбутнім поколінням EPYC «Milan» на основі архітектури Zen 3, що серйозно спрощує розробку серверів, заснованих на рішення AMD, дозволяючи використовувати існуючий дизайн в майбутньому, скоротивши витрати. Для оновлення існуючих серверів буде достатньо змінити лише самі процесори. Подібний підхід дуже допоможе AMD забрати деяку частину ринку у Intel. Шкода, що більш-менш точних дат доступності нових EPYC немає, було озвучено тільки їх поява в 2019 році.

Зате компанія AMD вперше запропонувала оцінити продуктивність своїх процесорів EPYC наступного покоління. Журналістам показали порівняння продуктивності двухсокетной системи Intel Xeon Platinum 8180M, яка дозволяє використовувати до 3 ТБ пам’яті і надає 96 ліній PCIe 3.0, тоді як односокетная «Rome» дозволяє використовувати 4 ТБ пам’яті і дає до 128 ліній PCIe 4.0 з удвічі більшою пропускною здатністю.

У підсумку, передсерійна версія процесора EPYC нового покоління в ході виконання інтенсивної обчислювальної навантаження в стандартному тесті C-Ray хай і небагато, але все ж обійшла систему з двома топовими процесорами Intel Xeon. Тобто, пропозиція компанії AMD на одному сокеті навіть краще пропозиції конкурента на двох сокетах — непоганий результат!

Зараз компанія активно працює для забезпечення виходу сімейства серверних процесорів EPYC під кодовим ім’ям «Rome» на ринок. Після цього, AMD планує випустити процесори на архітектурі Zen 3, при виробництві яких буде використовуватися вже покращений 7 нм техпроцес із застосуванням EUV-літографії. Вони повинні з’явитися десь у 2020 році. А потім настане час і Zen 4, які, можливо, будуть розраховані вже на зовсім інший тип пам’яті. Але ось про них ще дуже рано міркувати.

Прискорювачі обчислень Radeon Instinct на основі Vega 7 нм

З випуском Radeon Instinct MI25, компанія AMD раніше вже вступила в боротьбу за місце під сонцем у сфері застосування графічних процесорів у системах хмарних і високопродуктивних обчислень, застосування штучного інтелекту і т. п. До 2021 році, за оцінками AMD, обсяг ринку використання GPU в ЦОД складе близько 12 млрд доларів, тому всім дуже хочеться відхопити максимальну його частина. На даний момент Nvidia є явним лідером на цьому ринку, і навіть Intel зважилася розробити новий дискретний GPU, що також показує перспективність ринку.

На заході Next Horizon, компанія AMD анонсувала нові прискорювачі обчислень AMD Radeon Instinct моделей MI60 і MI50, які засновані на першому в світі GPU, що також створений за допомогою 7 нм техпроцесу — новому варіанті чіпа Vega. Ці рішення спеціально створені для застосування в області глибинного навчання, високопродуктивних обчислень і професійної візуалізації. Вони забезпечать максимальну обчислювальну продуктивність в новому поколінні завдань: масштабних симуляції, дослідження зміни клімату, обчислювальної біології, медичних завдання та багатьох інших.

Як ми раніше вже говорили, нова технологія виробництва з технологічними нормами 7 нм дозволяє збільшити щільність транзисторів до двох разів порівняно з раніше засвоєними техпроцесами компанії TSMC. Завдяки більш досконалому техпроцесу, новий GPU вийшов значно менше за розміром, в порівнянні з попередником: 331 мм2 проти 484 мм2, і це — при явному поліпшення його можливостей і характеристик. Ось наочне порівняння площі чіпів Vega минулого і нового поколінь:

Новий варіант графічного процесору компанії AMD має площу 331 мм2 при 13,2 млрд транзисторів (порівняйте з 13,6 млрд транзисторів при 545 мм2 у TU104 їх конкурента, який використовує техпроцес 12 нм тієї ж самої TSMC). Різниця в щільності транзисторів на практиці вийшла може і не в два рази, але все одно досить значною.

Також нас дуже цікавить збільшення продуктивності та покращення енергоефективності. AMD обіцяють до 25% приросту в швидкості при тому ж споживанні енергії при переході на 7 нм, що не дуже вражає. Зате можна домогтися вдвічі меншого споживання при тій же продуктивності, що вже веселіше. Явно потрібен конкурент для компактної Tesla T4, споживає дуже мало енергії, але поки що такий варіант Radeon Instinct не був анонсований.

Архітектурно графічний процесор Vega при переході на 7 нм техпроцес практично не змінився, хоча деякі модифікації в ньому все ж таки зробили — і вони призначені саме для використання цього GPU в ЦОД і при інших високопродуктивних обчисленнях. За FP64 – і FP32-продуктивності AMD називає новинку найшвидшим GPU в світі, і з подібною застереженням щодо точності обчислень це дійсно так, ось підтвердження в реальних тестах:

Покращена архітектура Vega спеціально призначена для різних обчислень, включаючи настільки модне зараз глибоке навчання. Ні, спеціалізованих блоків, начебто NPU або тензорних ядер в Vega не додали, зате новий графічний процесор вміє збільшувати продуктивність обчислень при зниженою точності, на відміну від попереднього варіанту цього GPU.

Прискорювачі Radeon Instinct MI60 і MI50 мають більш гнучкими можливостями обчислень з різною точністю, що розширює спектр їх застосування, включаючи HPC і програми для глибокого навчання. Vega 7 нм спеціально зробили для того, щоб ефективно справлятися з такими завданнями, як тренування і инференс нейронних мереж при забезпеченні більш високої продуктивності в обчисленнях з плаваючою комою з покращеною ефективністю.

Варіант Vega 7 нм отримав значно більш високу продуктивність FP64-обчислень — з половинною швидкістю щодо FP32 (його попередник має лише 1/16 темп), а також підтримку нових типів обчислень із зниженою точністю: INT8 і INT4, важливих для навчання і инференса нейронних мереж, коли не потрібна висока точність. Відповідно, нові Radeon Instinct здатні виконувати INT4-операції з вчетверо більшою продуктивністю, порівняно з FP16/INT16, але гнучкість цих можливостей поки не розкривається.

Все, що відомо на даний момент, це пікові значення продуктивності: 7,4 терафлопс для FP64, 14,7 терафлопс для FP32 і 118 TOPS для INT4. У підсумку, MI60 став найбільш швидким у світі прискорювачем при обчисленнях з подвійною точністю, і ці можливості дозволять дослідникам більш ефективно працювати в додатках HPC широкого спектру, включаючи енергетику, фінанси, автомобілебудування, аерокосмічну галузь і т. д.

У свою чергу, молодша модель Radeon Instinct MI50 має лише трохи меншою швидкістю обчислень, забезпечуючи пікову продуктивність FP64-операцій на рівні 6,7 терафлопс, будучи ефективним рішенням для широкого спектра завдань глибокого навчання, яке підходить і для підтримки віртуальних робочих столів, конфігурацій Desktop-as-a-Service і хмарних середовищ.

Що стосується реальної продуктивності, AMD призвели кілька результатів загальноприйнятих тестах, синтетичних і наближених до реальності. Так в синтетиці було наочно показано перевагу новинок за FP64-обчислень — MI60 виявився більш ніж в 8 разів швидше попереднього прискорювача компанії MI25.

А в таких важливих у сучасному світі завданнях глибокого навчання з застосуванням нейромереж різниця хай і не така вражаюча, але перевага над MI25 в 2,8 раз не можна назвати низькою. Обмовимося, що в даному конкретному тесті мова йде про FP16-обчисленнях, з якими Vega 7 нм справляється вдвічі швидше попередниці при однаковій тактовій частоті.

Крім цього, системи на нових Radeon Instinct MI60 добре масштабуються — при об’єднанні можливостей восьми GPU в таких завданнях, приріст продуктивності становить 7,64 рази — майже лінійний. Але поки що AMD весь час порівнює новинку з MI25, а що якщо порівняти продуктивність в подібних завданнях зі злісним конкурентом у вигляді Nvidia Tesla V100?

Начебто все добре — значно менш складний чіп Vega 7 нм показує майже таку ж швидкість, що і топовий GV100, та ще й на полі останнього — в задачі глибокого навчання. На слайді AMD зазначено, що продуктивність Tesla V100 у цій задачі становить 350 зображень в секунду при тренуванні ResNet-50. А у MI60 лише трохи менше — 334 зображення/сек.

Начебто непогано — лише трохи нижче, але адже якщо використовувати можливості тензорних ядер на GV100, то результат конкурента перевищить 1000 зображень/сек. Так, представники AMD уточнюють, що вони розглядали в даному випадку тільки FP32-операції для досягнення більш високої точності, але ж на практиці для подібної обробки зображень цілком вистачає і FP16 — в дуже великій кількості випадків. Більше того — трохи вище вони ж порівнювали MI25 і MI60 саме при такій точності!

Залишимо це на совісті підготували слайди, і поговоримо про енергоефективність. В рішеннях для суперкомп’ютерів і ЦОД це часто важливіше навіть, ніж пікова продуктивність. Виходить, що навіть застосування 7 нм техпроцесу не дозволило AMD отримати перевагу перед Tesla V100, споживає приблизно стільки ж енергії. Можливо, краще було б випустити щось більш компактне і з меншими частотою і енергоспоживанням, щоб покращити енергоефективність. В деяких випадках, на зразок завдань глибокого навчання більше підійшов би інший форм-фактор — призначений спеціально для високощільних рішень, начебто Tesla T4. Якщо порівнювати MI50/MI60 з T4 енергоефективності в таких завданнях, то прискорювач Nvidia виглядає куди більш цікавим.

Але і для нової Vega є своя ніша — цей GPU краще підійде для завдань, в яких обов’язково потрібна FP32 – і FP64-точність. Але нам здається, для реального прориву GPU AMD ринок високопродуктивних рішень і ЦОД, потрібен продукт, серйозно перевершує конкурента за якихось важливих параметрів: продуктивності, енергоефективності або співвідношенню ціни і продуктивності. По першим двом нова Vega лише дотяглася до конкурента, але AMD має шанс перевершити Nvidia по співвідношенню ціни і швидкості, якщо новий техпроцес буде досить налагоджений і дозволить масовий випуск цього продукту за порівняно невисокою ціною.

Втім, ще одним з найважливіших переваг нових прискорювачів Radeon Instinct MI60 і MI50 залишається високошвидкісна пам’ять типу HBM2 (High-Bandwidth Memory другого покоління). Представлений на початку листопада GPU має чотири контролера HBM2-пам’яті, на відміну від двох у попередника, що разом з швидкою пам’яттю призвело до зростання ПСП до 1 ТБ/с, що краще, ніж у топового рішення конкурента у вигляді GV100.

Що дуже важливо для високопродуктивних обчислень, новинка підтримує корекцію помилок ECC — вперше за кілька років для компанії AMD. Radeon Instinct MI60 містить 32 ГБ пам’яті HBM2, а Radeon Instinct MI50 — 16 ГБ такої пам’яті. Обидва рішення підтримують апаратну корекцію помилок ECC і технології RAS (Reliability, Accessibility, Serviceability), критично важливі для отримання точних результатів обчислень в HPC-середовищах.

Також новинка AMD є першим у світі GPU з підтримкою нової версії PCI Express 4.0, яка здатна передавати дані зі швидкістю 64 гігабіт/с в обидва боки — до двох разів швидше, порівняно з іншими типами з’єднання CPU і GPU. Новий GPU підтримує межчиповые з’єднання Infinity Fabric нової версії, службовці для об’єднання можливостей декількох GPU зі швидкістю передачі даних до шести разів швидше, ніж при використанні PCI Express 3.0 — на швидкості 100 гігабіт/с на канал. На кожній карті є два канали, тому загальна пропускна здатність становить 200 гігабіт/с, а можна об’єднати до чотирьох GPU.

А ще нова Vega підтримує третє покоління апаратної віртуалізації AMD, розділяючи можливості одного GPU на віртуальні машини кількістю до 16, а одна віртуальна машина може використовувати до восьми GPU. При цьому, немає зайвих витрат продуктивності на програмну обробку, так як технологія AMD MxGPU є єдиною системою апаратної віртуалізації GPU, заснованої на стандартній технології SR-IOV (Single Root I/O Virtualization), що забезпечує безпеку у віртуальних хмарних середовищах.

Крім апаратної частини, завжди дуже важлива і програмна підтримка — особливо в сфері застосування GPU в неграфічних обчисленнях. Разом з двома новими Radeon Instinct, компанія AMD також представила другу версію своєї відкритої програмної платформи ROCm для прискорених обчислень, розробленої для створення високопродуктивних гетерогенних комп’ютерних систем.

Природно, що ROCm 2.0 підтримує всі архітектурні особливості нових прискорювачів, включаючи оптимізовані операції глибокого навчання (DLOPS), а також відрізняється оновленими математичними бібліотеками, підтримкою 64-бітних систем Linux (включаючи CentOS, RHEL і Ubuntu), оптимізацією існуючих компонентів і підтримкою новітніх версій популярних середовищ глибокого навчання, включаючи TensorFlow 1.11, PyTorch (Caffe2) та інші.

Нам залишається розповісти лише про доступність нових продуктів. Як і було обіцяно представниками AMD ще на початку року, поставки прискорювачів Radeon Instinct MI60 повинні початися в останньому кварталі 2018 року. Нова версія відкритої програмної платформи ROCm 2.0 також з’явиться в доступі в кінці року. AMD поки що не визначила ціни, але при настільки свіжому і недешевому техпроцесі вона навряд чи буде низькою. З іншого боку, їм потрібно битися з Nvidia і ціна точно повинна бути нижче, ніж у конкуруючого рішення Tesla V100. Більш доступний варіант Radeon Instinct MI50 стане доступний в кінці першого кварталу наступного року і запропонує менш дорогий доступ до всіх можливостей оновленого процесора Vega.

Нові горизонти AMD все чіткіше вимальовуються

Підводячи підсумки заходу, зазначимо, що на Next Horizon компанія AMD розкрила деякі особливості архітектури Zen 2, будови наступного покоління серверних процесорів EPYC, а також представила нові моделі рішень Radeon Instinct для ЦОД, засновані на поліпшеному GPU Vega. Одним з головних переваг всіх нових рішень компанії має стати застосування 7 нм техпроцесу — першими в індустрії (для таких складних CPU і GPU).

Відразу кілька рішень компанії AMD, що використовують цей техпроцес, в даний час знаходяться в розробці, в тому числі наступне покоління серверних процесорів EPYC і прискорювачі обчислень Radeon Instinct. Обидві серії продуктів були представлені компанією AMD на заході і досить скоро стануть доступні для замовлення. Все це явно налаштовує на позитивний лад і продовжує успішний тренд AMD останніх років, коли компанія зміцнює свої позиції практично по всіх фронтах.

Показані новинки призначені для дата-центрів, і це важливо як для самої компанії, так і для індустрії — саме у них є певна перевага, адже зараз тільки AMD робить дизайн як CPU, так і GPU, призначених спеціально для дата-центрів з огляду на можливості цих різних обчислювальних при їх спільній роботі. І ця перевага буде нівельовано тільки в майбутньому, коли та ж Intel виведе на ринок власні графічні процесори, розробкою яких вони зараз займаються.

Оптимізація конкретно під ЦОД важлива, адже застарілі архітектури GPU мають обмежені можливості і не можуть досить ефективно виконувати обробку і аналіз величезних обсягів даних у складі дата-центрів. А нові прискорювачі Radeon Instinct отримали численні поліпшення, спеціально націлені на типові задачі ЦОД. Моделі MI60 і MI50 володіють підвищеною обчислювальної продуктивністю як у звичних FP32 – і FP64-обчисленнях, так і додатково прискорюють обчислення зі зниженою точністю, мають можливість високошвидкісного підключення карт один до одного і до CPU, а також забезпечують дуже швидкий доступ до великого обсягу високопродуктивної HBM2-пам’яті.

Апаратна частина нових Radeon Instinct доповнено оновленої відкритої програмною платформою ROCm 2.0, і все це разом забезпечує підтримку самих вимогливих додатків у сфері глибинного навчання і високопродуктивних обчислень. Але чи так все чудово, як виглядає на слайдах компанії?

Нова Vega дійсно дуже хороша тим, що в складі Radeon Instinct MI60 інженери змогли вичавити з уже немолодий архітектурою GCN стільки продуктивності, що в FP32 – і FP64-обчисленнях обігнали такого сильного суперника як Tesla V100, витративши при цьому аж на 40% менше транзисторів! Хоча не потрібно забувати, що GV100 містить спеціалізовані тензорні ядра і вміє паралельно виконувати не тільки 16 трильйонів операцій в секунду з FP32 точністю, але і стільки ж INT16-операцій паралельно, що може бути затребуване в деяких завданнях.

Але в чисто FP32/FP64-обчисленнях, Vega дійсно виглядає дуже сильно. Правда, виходить цей GPU десь через півтора року після конкурента, для досягнення паритету знадобилася крупна зміна техпроцесу, а споживання енергії у конкуруючих рішень практично однакова — близько 300 Вт. При цьому, у Tesla є свої переваги у вигляді тензорних ядер, що забезпечують більш високу швидкість в задачах глибокого навчання зі зниженою точністю. І цю можливість конкурента AMD забули згадати при порівнянні, так як точності FP16 нібито недостатньо, не забувши розповісти про прискорення INT8-операцій при глибокому навчанні для Vega. Так і при порівнянні новинки з MI25 в AMD не гребували FP16-точністю (інакше нова Vega просто не обійшла б стару аж у 2,8 рази).

Також, цілком логічно припустити, що при незмінній кількості основних виконавчих блоків в Vega, настільки висока швидкість була досягнута за допомогою досить високою робочої частоти GPU — близько 1,8 ГГц, за яку потрібно в основному дякувати 7 нм техпроцес. Цілком ймовірно, що AMD довелося «тягнути» новий варіант Vega до рівня GV100, підвищуючи частоту ще і ще, що і викликало надмірно високе споживання енергії — оригінальна Vega скромним апетитом ніколи не відрізнялася, але при виробництві нової версії застосовується більш досконалий техпроцес, від якого ми чекали кілька більшого…

Звичайно, ці питання аж ніяк не скасовують того, що Radeon Instinct MI60 є самим швидким прискорювачем по продуктивності FP32/FP64-обчислень на момент його оголошення. Просто такі хитрощі при порівнянні з конкурентом можуть відштовхнути частину потенційних замовників, зацікавлених у чесній оцінці можливостей нових GPU, які дуже гарні і без подібних штучних перебільшень.

Якщо ж говорити про архітектурні рішення в Zen 2 і нових EPYC, то це оновлення вийшло ще більш цікавим і багатообіцяючим. Самі по собі ядра отримали багато в чому очікувані зміни, які повинні серйозно підтягнути їх продуктивність до кращим рішенням конкурента, так і модульність сама по собі дуже цікава ідея в своїй основі. Звичайно, до неї є деякі питання в плані достатності характеристик внутрішніх з’єднань, адже Infinity Fabric все одно має меншу пропускну здатність, ніж та ж ПСП оперативної пам’яті, а лазити в останню ядра будуть обов’язково через центральне ядро вводу-виводу. Загалом подивимося на практичну реалізацію, в тому числі системи кешування даних.

В цілому ж, нас дуже радує, що компанія AMD так спланувала свою роботу, що повинна випустити перші CPU і GPU на 7 нм техпроцесу раніше конкурентів — такі великі чіпи на ньому ще ніхто не випускав масово. Новий техпроцес повинен забезпечити вдвічі більшу щільність транзисторів (не забуваємо, що не всі блоки ефективно масштабуються — в тому числі тому для ядра вводу-виводу в Zen 2 залишили 14 нм техпроцес), а також удвічі менше енергоспоживання та приріст продуктивності на чверть. Додамо, що це порівняння техпроцесів TSMC (7 нм проти 16 нм), а не з 14 нм у GlobalFoundries.

І якщо AMD буде тримати всі свої обіцянки і далі, дійсно ставши першою на ринку з 7-нанометровими рішеннями, а також представить не просто конкурентоспроможні, але і вельми вигідні ціни на майбутні моделі EPYC і нові Radeon Instinct, то певний успіх їм гарантований, особливо в серверних універсальних процесорах. Для EPYC модульну будову і 7-нанометрові «чиплеты» здаються досить підходящим рішенням, яке дозволить AMD обійти конкурента за кількістю обчислювальних ядер на сокет, додавши до цього кращі можливості по сполукам PCI Express.

Що стосується нового варіанту Vega і пари моделей Radeon Instinct, які були анонсовані, то тут очікування хоч і оптимістичні, але трохи менше. Просто тому, що AMD не пропонує якихось характеристик, явно перевершують ту ж Nvidia Tesla V100. Не зрозумійте неправильно, нові GPU дуже гарні, але вони лише наздогнали конкуруючі з ними Tesla, які просуває на ринку вже більше року. Для дійсно потужної конкуренції, AMD необхідно запропонувати дуже «смачні» ціни, і саме від них буде залежати успіх нових Radeon Instinct. У них є теоретичне перевага за собівартістю з-за більш тонкої технології виробництва і розміру чіпа, але поки невідомо, у що обійдеться масове виробництво на новому GPU техпроцесі. Так що чекаємо оголошення цін на MI50 і MI60, щоб зробити остаточні висновки.

Чи не ще важливіше свіжих анонсів стало підкріплення впевненості усієї зацікавленої публіки в тому, що AMD не тільки має плани на найближче майбутнє (ох вже це жахливе «дорожня карта» — модна калька з roadmap), але і чітко знає, чим буде займатися в наступні місяці, і навіть роки. А для інвесторів це дійсно дуже важливі речі, адже вони повинні бути впевнені у правильності обраної стратегії. Тому на Next Horizon було публічно анонсовано відразу четверте покоління архітектури Zen, яке знаходиться в дуже ранній стадії розробки. Це ще дуже далекий приціл, зараз куди важливіше друге і третє покоління, які будуть ділити один і той же сокет.

Те ж саме стосується і прискорювачів обчислень Radeon Instinct — плани на їх розвиток. Зараз точно відомо про те, що модель MI60 з’явиться у продажу в кінці року, а спрощена MI50 в наступному кварталі, але вже є відомості і про те, що компанія AMD працює над наступним поколінням MI-Next, які ми побачимо ще через деякий час. Не те, щоб це щось серйозно змінювало, адже ніяких подробиць нам поки не розповіли, але бачити таку впевненість у своїх силах у представників компанії дуже важливо. Будемо сподіватися, що все у них вийде!

Повний запис виступів представників AMD на Next Horizon ви можете подивитися на офіційному каналі компанії в Youtube: