Radeon Open Compute "ROCm" Stack v3.1 uitgebracht met RAS voor Vega 7nm, SLURM-ondersteuning voor beter resourcebeheer, maar Navi ontbreekt nog steeds

Radeon Open Compute of "ROCm" stack nieuwe versie is nu beschikbaar om te downloaden. De Radeon Open Compute v3.1 brengt nogal wat functies met zich mee, maar vreemd genoeg ontbreekt ondersteuning voor zowel AMD Navi als GFX10 nog steeds.

ROCm, het meest algemeen aanvaarde universele platform voor GPU-versneld computergebruik, is nu op versie 3.1. De nieuwste update van het modulaire platform waarmee hardwareleveranciers stuurprogramma's kunnen bouwen die het ROCm-framework ondersteunen, bevat een aantal langverwachte functies zoals RAS-ondersteuning voor 7nm Vega en SLURM-ondersteuning voor AMD GPU's. Om nog onbekende redenen heeft het ROCm echter nog steeds geen volledige ondersteuning voor de volgende generatie AMD Navi-architectuur.

Wat is er nieuw in Radeon ROCm v3.1:

De grootste en meest voor de hand liggende verandering in de nieuwe installatie van Radeon ROCm v3.1 zit in de ROCm Installation Directory Structure. Een nieuwe installatie van de ROCm-toolkit installeert de pakketten in de/ opt / rocm- map. Eerder werden ROCm-toolkit-pakketten geïnstalleerd in het/ opt / rocm map.

De nieuwe versie van ROCm heeft verbeterde betrouwbaarheid, toegankelijkheid en onderhoudbaarheid (RAS) -ondersteuning voor Vega 7nm GPU's. Dit 7nm Vega-werk ligt vermoedelijk nog onder de microscoop voor de Vega-gebaseerde "Arcturus" compute accelerator komt dit jaar. De ondersteuning omvat:

  • UMC RAS ​​- HBM ECC (oncorrigeerbare foutinjectie), pagina buiten gebruik gesteld, RAS-herstel via GPU (BACO) reset
  • GFX RAS - GFX, MMHUB ECC (niet-corrigeerbare foutinjectie), RAS-herstel via GPU (BACO) reset
  • PCIE RAS - PCIE_BIF ECC (onherstelbare foutinjectie), RAS-herstel via GPU (BACO) reset

Radeon ROCm v3.1 krijgt ook SLURM-ondersteuning voor AMD GPU's. SLURM of Simple Linux Utility for Resource Management is een van de sterk geprefereerde en gemakkelijk gebruikte clusterbeheer- en taakplanningssystemen voor Linux-clusters. SLURM heeft de voorkeur omdat het open-source, fouttolerant en zeer schaalbaar is.

Dit systeem kan nu goed samenwerken met AMD GPU's. De nieuwste versie 20.02.0 van SLURM bevat AMD-plug-ins waarmee SLURM AMD GPU's automatisch kan detecteren en configureren. Het verzamelt en rapporteert ook het energieverbruik van grafische chips. De SLURM-ondersteuning is een nuttige toevoeging gezien het toenemende aantal supercomputing-implementaties met Radeon GPU's en andere grotere AMD GPU-clusters.

Ondanks de opname van verschillende functies, zijn er nog steeds geen tekenen van GFX10 / Navi-ondersteuning in ROCm. De GitHub-pagina voor ROCm is bijgewerkt om alle wijzigingen, installatieopmerkingen en bekende problemen weer te geven.

Facebook Twitter Google Plus Pinterest