Questo sito è in fase di dismissione. Consultare il nuovo sito www.arpa.fvg.it
L'infrastruttura di calcolo regionale FENICE (Fvg ENhanced Infrastructure and Computational Environment, Fig. 1) è costituita da un gruppo di computer (cluster), installati su degli armadi a telaio (rack), collegati e gestiti in modo da poter operare come un unico super-calcolatore (HPC, High Performance Computing), distribuendo il calcolo su più nodi (calcolo parallelo).
L'Amministrazione regionale si è ripetutamente pronunciata sulla necessità di sviluppare progetti nel campo dell'High Performance Computing, forte anche delle valutazioni positive espresse da organismi europei sulla capacità di innovazione come elemento caratterizzante del FVG.
L'infrastruttura è installata in una sala-server presso la sede INSIEL di Amaro (Ud), nel Carnia Industrial Park.
Attualmente il cluster di calcolo parallelo FENICE è costituito da (Tab. 1):
La gran parte dei nodi di calcolo, dei nodi di servizio e lo storage principale sono collegati fra loro da rete ad alte prestazioni InfiniBand.
Nodi |
Caratteristiche |
CPUs |
Anno |
Modello |
Ruolo |
Rete |
1 |
cpu: 2.20G (28) mem: 64 G |
28x1 |
2021 |
Dell R740 |
Nodi di storage ARPA (52TB) |
Ethernet |
2 |
cpu: 2.30G (96) mem: 128 G |
96x2 |
2021 |
HPE DL560 gen10 |
Nodi di calcolo ARPA |
Ethernet |
4 |
cpu: 2.30G (32) mem: 126 G |
32x4 |
2015 |
HP DL560 gen8 |
Nodi di calcolo |
InfiniBand |
8 |
cpu: 2.10G (40) mem: 126 G |
40x8 |
2016 |
HP DL560 gen9 |
Nodi di calcolo |
InfiniBand |
2 |
cpu: 2.10G (32) mem: 94 G |
32x2 |
2016 |
Dell R740 |
Nodi di storage (70TB) |
InfiniBand |
2 |
cpu: 2.20G (20) mem: 64 G |
20x2 |
2018 |
Dell R640 |
Nodi di servizio per login e spazio home utenti, in alta affidabilità. |
InfiniBand |
2 |
cpu: 2.20G (20) mem: 64 G |
20x2 |
2018 |
Dell R640 |
Altri servizi (pbs pro, jenkins, git, trac, shiny, thredds, geonetwork, postgis, ganglia, etc.) |
InfiniBand |
Tabella 1: la consistenza attuale dell’infrastruttura HPC Fenice
Il sistema operativo della FENICE è la distribuzione Linux CentOS.
L’ambiente di calcolo (librerie, compilatori, software scientifico, workflow manager, ecc.) è condiviso fra tutti gli utenti dell’infrastruttura.
I programmi destinati al calcolo parallelo devono essere scritti e compilati secondo specifici protocolli: quello in uso sulla FENICE è Open MPI (Open source Message Passing Interface).
L’esecuzione dei modelli avviene attraverso un sistema di gestione delle code di calcolo (PBS Pro), che alloca le risorse disponibili ai vari processi. A tal fine, i nodi computazionali sono stati raggruppati in 4 code di calcolo (‘adria’, ‘arpa’, ‘hp’ e ‘Julia’).
Hanno la precedenza le simulazioni destinate ai servizi operativi (previsioni meteo e della qualità dell’aria, ricadute degli incendi, ecc.), che richiedono un utilizzo quotidiano ed intensivo dell’infrastruttura soprattutto nelle prime ore della giornata, al fine di rilasciare i prodotti in tempo utile per le finalità istituzionali e gli utenti finali.
Tali simulazioni sono state predisposte in modo da essere totalmente automatizzate: dalla fase di acquisizione dei dati all’esterno, all’esecuzione dei vari programmi, alla pubblicazione dei risultati. Il worklow manager (ecFlow) consente agli operatori di monitorarne l’esecuzione e di individuare eventuali malfunzionamenti.
I programmi e gli script realizzati dagli operatori sono gestiti attraverso un sistema di sviluppo condiviso (trac), versionamento (git) e integrazione continua (jenkins) del software.
Lo storage principale dei dati è realizzato con il filesystem Lustre, ottimizzato proprio per i cluster di calcolo, consentendo numerosi accessi “concorrenti” in lettura e scrittura sui dischi da parte dei processi attivi sui nodi.
I linguaggi di programmazione e di scripting principalmente utilizzati sono: C, Fortran, Perl, Python, R, oltre ai linguaggi di scripting delle shell Linux.
La FENICE è ovviamente connessa in rete ed accede in lettura e scrittura a vari altri server, con diversi protocolli, per adempiere alle esigenze di acquisizione e diffusione dei dati, in un’ottica machine-to-machine.
Gli operatori accedono alla FENICE da remoto, dai propri PC di lavoro, attraverso un'interfaccia a riga di comando (Fig. 2).
Le attività che vi svolgono sono:
Sulla FENICE sono attivi:
La continuità operativa, concettualmente diversa dal back-up, garantisce che i servizi di previsione (meteorologica, della qualità dell'aria, dello stato del mare) non si interrompano e che gli operatori possano continuare a lavorare, anche in caso di grave e prolungato malfunzionamento dell'infrastruttura principale.
Questi servizi sono assicurati da INSIEL e da ARPA FVG facendo ricorso ad una ditta esterna, specializzata in questo tipo di infrastrutture.