
Scopriamo se GPT-4.5 è all'altezza delle aspettative per gli utenti ChatGPT Plus e Team
A pochi giorni dal lancio, OpenAI ha reso disponibile GPT-4.5 per tutti gli utenti iscritti ai piani ChatGPT Plus e Team, ampliando così l’accesso rispetto ai precedenti abbonamenti limitati. Questa evoluzione dell’intelligenza artificiale ha suscitato grande interesse, poiché GPT-4.5 si presenta come il modello linguistico più avanzato mai creato, promettendo risposte più precise e una riduzione delle cosiddette “allucinazioni” – risposte errate o fuorvianti.
le caratteristiche di gpt-4.5
GPT-4.5 è progettato per fornire risposte con un’elevata accuratezza, ma è importante notare che non è un modello a “catena di pensiero”. Ciò significa che non elabora le informazioni in modo sequenziale per migliorare le proprie risposte. Al contrario, è un modello “general purpose”, che lo rende versatile, ma con alcune limitazioni rispetto a modelli più sofisticati dotati di tecniche di ragionamento avanzato.
costi e limitazioni
Uno dei punti critici di GPT-4.5 è il costo di utilizzo, poiché richiede elevate risorse computazionali. Questo ha portato OpenAI a limitare inizialmente l’accesso a un numero ristretto di abbonati. Solo recentemente, grazie a miglioramenti nella capacità di elaborazione delle GPU, l’accesso è stato esteso a tutti i piani, ad eccezione di quelli Edu e Enterprise. Tuttavia, gli utenti devono affrontare un limite di circa 50 richieste alla settimana, che molti considerano insufficiente per un utilizzo ottimale.
performance rispetto ad altri modelli
In un’analisi condotta da Epoch AI, GPT-4.5 è stato testato in competizione con altri modelli di intelligenza artificiale. I risultati dei benchmark, come GPQA Diamond, MATH Level 5 e Mock AIME 2024-2025, hanno mostrato un miglioramento delle performance rispetto ai modelli “non ragionanti”, con un aumento dell’accuratezza di ben 21 punti percentuali rispetto a GPT-4. Tuttavia, quando confrontato con modelli che utilizzano tecniche di ragionamento come o3-mini o Claude 3.7, le prestazioni di GPT-4.5 risultano inferiori, specialmente nel benchmark OTIS Mock AIME, dove o3-mini ha raggiunto una precisione superiore di 39 punti percentuali.
la validità dei benchmark
Un’altra questione importante riguarda la validità dei benchmark utilizzati per valutare le capacità degli LLM. Recentemente, The Atlantic ha suggerito che i progressi nell’intelligenza artificiale generativa potrebbero essere sopravvalutati. I benchmark utilizzati da aziende come OpenAI, Google e DeepSeek potrebbero essere influenzati da una “contaminazione”, poiché i chatbot sono addestrati con dati che includono le stesse domande utilizzate per la valutazione. Questo solleva interrogativi sulla reale capacità di apprendimento e generalizzazione dei modelli.
Alcuni ricercatori hanno dimostrato che modelli come GPT-4 hanno memorizzato risposte a test MMLU piuttosto che sviluppare vere capacità di elaborazione. Ciò solleva interrogativi su quanto i nuovi modelli, presentati come “i migliori di sempre”, siano effettivamente in grado di generalizzare le loro conoscenze e risolvere problemi non già affrontati in fase di addestramento.
In questo contesto, è essenziale interrogarsi sulle reali capacità di GPT-4.5 e se sia in grado di mantenere le promesse fatte da OpenAI. Nonostante i progressi nel miglioramento delle prestazioni, la questione dell’effettiva capacità di ragionamento e comprensione profonda rimane aperta. Gli utenti possono trovare in GPT-4.5 uno strumento utile e versatile, ma è fondamentale non perdere di vista le sue limitazioni e le sfide ancora da affrontare nel campo dell’intelligenza artificiale.
Con l’accesso ampliato a GPT-4.5, sarà interessante osservare come gli utenti sfrutteranno le potenzialità di questo modello e se riuscirà a soddisfare le aspettative di chi cerca un’assistenza più sofisticata nelle proprie interazioni quotidiane. La continua evoluzione dei modelli di intelligenza artificiale solleva interrogativi non solo sulla loro capacità di generazione del linguaggio, ma anche sull’etica e sull’affidabilità delle informazioni che producono.