Questo sito è in fase di dismissione. Consultare il nuovo sito www.arpa.fvg.it

sei in:  home page » Storia del Centro di calcolo Stampa

Storia e miti

Le risorse di calcolo ad alte prestazioni (HPC, High Performance Computing) attualmente disponibili del Centro di Modellistica Ambientale sono descritte in una pagina dedicata, in questa stessa sezione del sito.

Ma la necessità di disporre di un sistema di calcolo ad alte prestazioni si è presentata immediatamente, assieme all’istanza – posta dalla Regione - di sviluppare un apparato di modellistica ambientale capace di descrivere le dinamiche di sistemi estremamente complessi, supportando le interpretazioni dei monitoraggi ambientali, la pianificazione regionale e comunale, le valutazioni di impatto ambientale.

In questa pagina viene raccontata brevemente la storia di questa esperienza, dal punto di vista delle risorse di calcolo, con qualche concessione alla fantasia, al sentimento e al mito.

 

 

Il cluster UGOLINO (03 luglio 2008 – 01 settembre 2010)

Ugolino L'acronimo UGOLINO nasce dalla contrazione dell'espressione inglese Unlimited Generator of Outputs on LINux Operative system. Il sistema di installazione e gestione del cluster Ugolino era costituito dalla distribuzione Linux ROCKS, che garantiva il sistema operativo, la sincronizzazione dei nodi di calcolo, le configurazioni di base, gli strumenti di amministrazione del cluster.

UGOLINO era installato, come altri server, negli scantinati della sede ARPA di Palmanova e amministrato da personale interno (Servizio ICT dell’Agenzia). Su UGOLINO sono andati in esecuzione operativa il modello meteorologico WRF, il modello meteorologico diagnostico CalMet, il modello di dispersione degli inquinanti CalPuff, la suite modellistica Aria Regional.

Il cluster UGOLINO é stato ufficialmente dismesso in data 01 settembre 2010. Il cluster che ha sostenuto l'infanzia del CRMA ha passato il testimone a colui che ne ha sostenuto l'adolescenza: NEXUS. Potremmo dire che il temuto fagocitatore dei propri figli é diventato lui stesso vittima, essendo stato assimilato dal ben più prestante NEXUS.

 

 

 

Il cluster NEXUS (01 settembre 2010 – 6 agosto 2015)

Nexus

L'acronimo NEXUS sta per: NEXt Ugolino System. Infatti il precedente cluster UGOLINO è stato affiancato da NEXUS per diversi mesi, fino a che i processori di UGOLINO sono stati fagocitati da NEXUS, che è diventato il cluster di calcolo del CRMA (ancora con il sistema operativo ROCKS). A luglio 2013, dopo un aggiornamento, NEXUS disponeva di 184 core e uno spazio disco di 4.5TB.

Il termine anglosassone nexus, equivale all'italiano "nesso". L'etimologia della parola inglese, datata 1655–65, riporta ai seguenti significati:

  1.  connessione, collegamento legame;
  2.  una serie connessa o un gruppo connesso;
  3.  il centro o il cuore di una situazione, di una questione;
  4.  in biologia cellulare, indica un'area specializzata della membrana cellulare atta alla comunicazione intercellulare;

Inoltre NEXUS richiama il modello Nexus-6 di replicanti costruiti dalla Tyrell Corporation nel film di fantascienza intitolato "Blade Runner" (descrizione italiana) di Ridley Scott; film del 1982.

Ricordando che il film è ambientato nel 2019 e che i replicanti Nexus-6 hanno una vita limitata per prevenire lo sviluppo di emozioni ed il desiderio di indipendenza, nel 2010 al CRMA si era ritenuto che NEXUS potesse essere il cluster destinato a sostenere le fatiche computazionali del Centro fino al 2019, ovviamente con gli aggiornamenti del caso, per poi essere sostituito. Questo programma doveva prevenire il raggiungimento della fatidica data del novembre 2019, cioè il momento in cui NEXUS si ribella al suo creatore.

La leggenda di NEXUS imponeva anche che non si andasse mai da soli nella stanza del cluster. Si ricordi infatti cosa accadde al Dr. Eldon Tyrell, il creatore di Nexus, nel film "Blade Runner" (si veda l'immagine di inizio del presente articolo).

Ma fare previsioni attendibili, specie a lungo termine, è un mestiere difficile, lo sappiamo bene. E così, il 6 agosto 2015, il Destino – manifestatosi sotto forma di fallimento catastrofico ed irreparabile del file system di NEXUS – stracciò le aspettative del CRMA e – chissà quali fossero? – quelle dello stesso NEXUS. L’autopsia stabilì che il malfunzionamento di un sensore di temperatura aveva costretto il sistema ad un numero incredibile di spegnimenti e riaccensioni, durante la notte, causando un errore che si era via via propagato. Un errore che aveva aggirato il senso di sicurezza dato dal sistema RAID 6 (Redundant Array of Independent Disks), robusto rispetto ad eventuali problemi hardware di uno dei dischi, ma non rispetto al problema manifestatosi.   

Molti programmi e file di dati si poterono recuperare, ma molto andò irrimediabilmente perduto. Da allora si giurò: mai più senza un opportuno sistema di back-up.

 

 

 

Il cluster FENICE (15 ottobre 2013 - corrente)

Fenice Nel frattempo, la lungimiranza di un operatore del CRMA (cui riferiremo solo con una sigla: DBG) aveva già consentito di gettare le basi di un altro futuro. Nel 2013 era stata infatti avviata una collaborazione, con Regione ed INSIEL, per aggiornare e mettere in produzione un cluster HPC installato ad Amaro (Ud), presso una sala server di INSIEL situata nel parco industriale.

Tale infrastruttura, nata nel 2008 con il progetto GRID@FVG assieme ad una gemella collocata presso la SISSA di Trieste, risultava allora inutilizzata e spenta. Con il supporto di una ditta specializzata, vennero aggiornate alcune componenti e creato un ambiente di calcolo atto ad ospitare i modelli e le attività, in crescita, del Centro Regionale di Modellistica Ambientale dell’ARPA. Questa nuova vita valse al cluster la denominazione di FENICE (Fvg ENhanced Infrastructure and Computational Environment), l’uccello che rinasce dalle proprie ceneri.

Il 6 agosto 2015, con il crash catastrofico di NEXUS, la migrazione verso il cluster Regionale accelerò di brutto. I server ARPA che avevano costituito NEXUS vennero integrati a loro volta nel server regionale FENICE. Le catene modellistiche e le basi dati vennero ricostruite sulla nuova infrastruttura – ma ci volle quasi un anno per riprendere la piena operatività, con gravi disservizi percepiti chiaramente da Regione, Comuni e cittadini (es. assenza delle previsioni di Qualità dell’Aria).

Avendo evidenza delle ripercussioni della drammatica fine di NEXUS, per la FENICE vennero attivati robusti sistemi di back-up dei dati e di continuità operativa (la replica dell’ambiente di calcolo e delle catene modellistiche su un’infrastruttura indipendente), segnando la fine di un periodo che potremmo definire pionieristico e marcando il raggiungimento della maturità di questa esperienza.

Fra il 2015 ed il 2018 l’impegno dell’ARPA e della Regione portò anche alla progressiva sostituzione delle macchine originali (2008) che costituivano la FENICE, portando alla situazione attuale.

 

 

inizio pagina

 

 



ultimo aggiornamento: giovedì 28 ottobre 2021