Dettagli sul blackout che ha interrotto l’accesso a ChatGPT e Sora: colpevole un provider esterno

La settimana scorsa, OpenAI ha affrontato un significativo problema tecnico che ha compromesso l’accesso a ChatGPT e Sora, la sua innovativa piattaforma di generazione di video basata su testo. Gli sviluppatori hanno incontrato difficoltà anche nell’utilizzo di alcune API, creando disagi per utenti e operatori. A distanza di qualche giorno dall’incidente, l’azienda ha fornito maggiori dettagli su quanto accaduto, indicando anche un possibile responsabile dietro il blackout.

Il blackout e la conferma di OpenAI

Il 26 dicembre, a partire dalle 11:00 locali , OpenAI ha avvisato che il problema era legato a un provider esterno. Poco dopo, l’azienda ha fatto sapere che Sora, il modello text-to-video, sarebbe stato ripristinato alle 15:16 . Durante questo lasso di tempo, le API per agenti di intelligenza artificiale, voce in tempo reale e DALL-E sono diventate nuovamente disponibili circa un’ora dopo la ripresa di Sora.

Il ripristino completo di ChatGPT è avvenuto verso le 18:20 locali . Sebbene OpenAI avesse attivato un’analisi approfondita, soltanto più tardi, nel corso della serata, l’azienda ha aggiornato la pagina dello stato dei servizi, rivelando che l’origine del problema risiedeva nell’assenza di alimentazione elettrica presso un data center di un provider cloud.

La possibile responsabilità di Microsoft

Sebbene OpenAI non abbia menzionato esplicitamente il nome del provider, nel medesimo periodo è stato confermato un blackout elettrico presso un data center di Azure, il che lascia intravedere che Microsoft possa essere implicata. OpenAI sostiene di avere replicato i propri dati a livello globale, il che è un buon metodo di protezione. Tuttavia, la gestione del failover del sistema a livello regionale richiede l’intervento manuale del provider cloud, rendendo il processo soggetto a ritardi.

In effetti, l’operazione di failover è stata portata a termine dal provider cloud, consentendo il recupero di alcune basi dati in altre aree. Tuttavia, il gran volume di informazioni contenuto nei database ha rallentato i tempi di ripristino. La situazione è migliorata una volta che il provider ha ripristinato completamente l’alimentazione al data center.

Future misure di resilienza

In seguito a quanto accaduto, OpenAI ha pianificato di attuare alcuni cambiamenti infrastrutturali nel prossimo futuro. L’intenzione è quella di migliorare la resilienza dei sistemi per prevenire interruzioni prolungate legate a eventuali problemi coi provider cloud. L’azienda auspica che tali modifiche possano garantire un failover più rapido in situazioni simili. Questo approccio mira a garantire continuazione di servizio, riducendo il rischio di disagi per gli utenti e per gli sviluppatori che utilizzano le API di OpenAI.

Il blackout di dicembre non è stato solo un episodio isolato, ma rappresenta un importante monito sulla necessità di solidità e preparazione di fronte a eventuali problemi infrastrutturali. La reazione di OpenAI al blackout e il successivo ripristino del servizio dimostrano la severità con cui l’azienda affronta le interruzioni e il proprio impegno a mantenere l’affidabilità dei servizi forniti.

Change privacy settings
×