A pochi giorni dal lancio, OpenAI ha reso disponibile GPT-4.5 per tutti gli utenti iscritti ai piani ChatGPT Plus e Team, ampliando così l’accesso rispetto ai precedenti abbonamenti limitati. Questa evoluzione dell’intelligenza artificiale ha suscitato grande interesse, poiché GPT-4.5 si presenta come il modello linguistico più avanzato mai creato, promettendo risposte più precise e una riduzione delle cosiddette “allucinazioni” – risposte errate o fuorvianti.
GPT-4.5 è progettato per fornire risposte con un’elevata accuratezza, ma è importante notare che non è un modello a “catena di pensiero”. Ciò significa che non elabora le informazioni in modo sequenziale per migliorare le proprie risposte. Al contrario, è un modello “general purpose”, che lo rende versatile, ma con alcune limitazioni rispetto a modelli più sofisticati dotati di tecniche di ragionamento avanzato.
Uno dei punti critici di GPT-4.5 è il costo di utilizzo, poiché richiede elevate risorse computazionali. Questo ha portato OpenAI a limitare inizialmente l’accesso a un numero ristretto di abbonati. Solo recentemente, grazie a miglioramenti nella capacità di elaborazione delle GPU, l’accesso è stato esteso a tutti i piani, ad eccezione di quelli Edu e Enterprise. Tuttavia, gli utenti devono affrontare un limite di circa 50 richieste alla settimana, che molti considerano insufficiente per un utilizzo ottimale.
In un’analisi condotta da Epoch AI, GPT-4.5 è stato testato in competizione con altri modelli di intelligenza artificiale. I risultati dei benchmark, come GPQA Diamond, MATH Level 5 e Mock AIME 2024-2025, hanno mostrato un miglioramento delle performance rispetto ai modelli “non ragionanti”, con un aumento dell’accuratezza di ben 21 punti percentuali rispetto a GPT-4. Tuttavia, quando confrontato con modelli che utilizzano tecniche di ragionamento come o3-mini o Claude 3.7, le prestazioni di GPT-4.5 risultano inferiori, specialmente nel benchmark OTIS Mock AIME, dove o3-mini ha raggiunto una precisione superiore di 39 punti percentuali.
Un’altra questione importante riguarda la validità dei benchmark utilizzati per valutare le capacità degli LLM. Recentemente, The Atlantic ha suggerito che i progressi nell’intelligenza artificiale generativa potrebbero essere sopravvalutati. I benchmark utilizzati da aziende come OpenAI, Google e DeepSeek potrebbero essere influenzati da una “contaminazione”, poiché i chatbot sono addestrati con dati che includono le stesse domande utilizzate per la valutazione. Questo solleva interrogativi sulla reale capacità di apprendimento e generalizzazione dei modelli.
Alcuni ricercatori hanno dimostrato che modelli come GPT-4 hanno memorizzato risposte a test MMLU piuttosto che sviluppare vere capacità di elaborazione. Ciò solleva interrogativi su quanto i nuovi modelli, presentati come “i migliori di sempre”, siano effettivamente in grado di generalizzare le loro conoscenze e risolvere problemi non già affrontati in fase di addestramento.
In questo contesto, è essenziale interrogarsi sulle reali capacità di GPT-4.5 e se sia in grado di mantenere le promesse fatte da OpenAI. Nonostante i progressi nel miglioramento delle prestazioni, la questione dell’effettiva capacità di ragionamento e comprensione profonda rimane aperta. Gli utenti possono trovare in GPT-4.5 uno strumento utile e versatile, ma è fondamentale non perdere di vista le sue limitazioni e le sfide ancora da affrontare nel campo dell’intelligenza artificiale.
Con l’accesso ampliato a GPT-4.5, sarà interessante osservare come gli utenti sfrutteranno le potenzialità di questo modello e se riuscirà a soddisfare le aspettative di chi cerca un’assistenza più sofisticata nelle proprie interazioni quotidiane. La continua evoluzione dei modelli di intelligenza artificiale solleva interrogativi non solo sulla loro capacità di generazione del linguaggio, ma anche sull’etica e sull’affidabilità delle informazioni che producono.
Il 20 gennaio 2017 ha segnato un momento storico con l'insediamento di Donald Trump come…
Negli ultimi anni, TikTok è emerso come uno dei social network più influenti e amati…
Instagram è uno dei social network più amati e utilizzati al mondo, un luogo dove…
L'aggiornamento alla versione 0.89.0 di PowerToys, la suite di utilità avanzate per Windows sviluppata da…
Nella mattinata di oggi, il social X, precedentemente noto come Twitter, ha fatto registrare un…
Un nuovo protagonista si affaccia nel panorama dell'intelligenza artificiale: Manus, un software sviluppato dalla startup…