Nuova gestione dei dati per il supercalcolo a esascala
Man mano che la domanda di supercomputer a esascala si diffonde, gli operatori dovranno aumentare la capacità di accesso e di flusso di lavoro, consentendo a un maggior numero di utenti di eseguire applicazioni sempre più diverse e complesse. I sistemi a esascala possono eseguire un miliardo di miliardi di calcoli al secondo. Trovare un modo per gestire e archiviare tutti questi dati è una sfida significativa, poiché gli attuali sistemi di archiviazione raggiungono i loro limiti e i sistemi operativi faticano a farvi fronte. «Le applicazioni future non potranno funzionare con gli attuali paradigmi di archiviazione», afferma Philippe Deniel, responsabile del laboratorio sui sistemi di archiviazione presso la Commissione francese per le energie alternative e l’energia atomica. In qualità di coordinatore del progetto IO-SEA, Deniel ha guidato lo sviluppo e l’implementazione di una soluzione software innovativa che offre un’archiviazione a lungo termine in grado di soddisfare la crescente domanda di dati. IO-SEA è uno dei tre progetti SEA, insieme a DEEP-SEA e RED-SEA, creati per sviluppare tecnologie complementari per un’architettura modulare europea di calcolo ad alte prestazioni (HPC).
Soluzioni di archiviazione
Una sfida fondamentale per il calcolo a esascala sarà l’evoluzione delle modalità di esecuzione dei calcoli. I supercomputer si affidano alle unità di elaborazione grafica (GPU), progettate per suddividere problemi complessi in migliaia di operazioni da eseguire simultaneamente. Ciò significa che richiedono anche molta memoria. Alla base della soluzione di IO-SEA (nota come stack di software, in quanto comprende diversi componenti) vi sono usi innovativi della gestione dell’archiviazione gerarchica (HSM), archivi basati su oggetti e server «effimeri». IO-SEA utilizza l’architettura di archiviazione dei dati nota come «archiviazione basata su oggetti», in cui gli elementi sono raggruppati insieme, ciascuno contenente i dati, i metadati e un identificatore unico. L’HSM offre un approccio di archiviazione a livelli che identifica automaticamente il supporto di memorizzazione migliore per l’applicazione in questione, che si tratti di memoria non volatile Express (NVMe) come le unità a stato solido, la memoria non volatile ad accesso casuale (NVRAM) o persino le bobine di nastro, apprezzate nel supercalcolo per il loro basso costo e i bassi requisiti energetici. Questa struttura a livelli garantisce che i dati ad accesso frequente siano conservati su supporti veloci, come NVMe, mentre il nastro funge da archiviazione a lungo termine. «Per un’HSM efficace, è importante anche identificare rapidamente i file», osserva Deniel. «Il nostro meccanismo di monitoraggio avanzato raccoglie i dati in un grande database, al quale il nostro sistema di intelligenza artificiale accede per formulare raccomandazioni agli utenti, in base al loro comportamento.» Infine, ogni server di archiviazione viene offerto su richiesta, programmato dinamicamente per completare un lavoro di calcolo. Gli operatori utilizzano un modulo di gestione del flusso di lavoro per impostare le simulazioni, che vengono poi assegnate automaticamente all’esecuzione su nodi di calcolo dedicati. I risultati vengono inviati al sistema di archiviazione e questi server «scompaiono», liberando i nodi per l’operazione successiva.
Risorse condivise
Gli utenti utilizzano il sistema IO-SEA utilizzando diversi middleware di accesso ai dati come POSIX, tra gli altri protocolli. Il sistema è stato testato in diversi casi d’uso, tra cui la microscopia elettronica, l’esecuzione di programmi di astrofisica, la climatologia e la modellizzazione del sistema Terra (in collaborazione con DEEP-SEA), le simulazioni di fisica quantistica e la meteorologia su larga scala e le previsioni del tempo. «Abbiamo dimostrato la capacità della nostra soluzione di offrire un cambiamento di paradigma, passando da un’archiviazione statica e immutabile a un processo dinamico e condiviso», aggiunge Deniel. La soluzione di IO-SEA sarà implementata come parte del prototipo EUPEX per l’esascala, che sarà lanciato entro un paio d’anni. Il software è stato reso gratuitamente disponibile sul sito di code-sharing GitHub. Il progetto è stato condotto con il sostegno dell’impresa comune per il calcolo ad alte prestazioni europeo (impresa comune EuroHPC), un’iniziativa istituita per sviluppare un ecosistema di supercalcolo di livello mondiale in Europa. «Pur essendo un insieme di diversi prodotti, la nostra soluzione, co-progettata da utenti finali e sviluppatori di sistemi, introduce uno stack di archiviazione integrato che indica la strada da seguire per il calcolo a esascala», conclude Deniel.
Parole chiave
IO-SEA, impresa comune EuroHPC, esascala, HPC, supercalcolo, memoria, archiviare, risorse, archivio basato su oggetti, gestione dell’archiviazione gerarchica, HSM, nastro, NVMe