Categories: Tech

Scopriamo se GPT-4.5 è all’altezza delle aspettative per gli utenti ChatGPT Plus e Team

A pochi giorni dal lancio, OpenAI ha reso disponibile GPT-4.5 per tutti gli utenti iscritti ai piani ChatGPT Plus e Team, ampliando così l’accesso rispetto ai precedenti abbonamenti limitati. Questa evoluzione dell’intelligenza artificiale ha suscitato grande interesse, poiché GPT-4.5 si presenta come il modello linguistico più avanzato mai creato, promettendo risposte più precise e una riduzione delle cosiddette “allucinazioni” – risposte errate o fuorvianti.

le caratteristiche di gpt-4.5

GPT-4.5 è progettato per fornire risposte con un’elevata accuratezza, ma è importante notare che non è un modello a “catena di pensiero”. Ciò significa che non elabora le informazioni in modo sequenziale per migliorare le proprie risposte. Al contrario, è un modello “general purpose”, che lo rende versatile, ma con alcune limitazioni rispetto a modelli più sofisticati dotati di tecniche di ragionamento avanzato.

costi e limitazioni

Uno dei punti critici di GPT-4.5 è il costo di utilizzo, poiché richiede elevate risorse computazionali. Questo ha portato OpenAI a limitare inizialmente l’accesso a un numero ristretto di abbonati. Solo recentemente, grazie a miglioramenti nella capacità di elaborazione delle GPU, l’accesso è stato esteso a tutti i piani, ad eccezione di quelli Edu e Enterprise. Tuttavia, gli utenti devono affrontare un limite di circa 50 richieste alla settimana, che molti considerano insufficiente per un utilizzo ottimale.

performance rispetto ad altri modelli

In un’analisi condotta da Epoch AI, GPT-4.5 è stato testato in competizione con altri modelli di intelligenza artificiale. I risultati dei benchmark, come GPQA Diamond, MATH Level 5 e Mock AIME 2024-2025, hanno mostrato un miglioramento delle performance rispetto ai modelli “non ragionanti”, con un aumento dell’accuratezza di ben 21 punti percentuali rispetto a GPT-4. Tuttavia, quando confrontato con modelli che utilizzano tecniche di ragionamento come o3-mini o Claude 3.7, le prestazioni di GPT-4.5 risultano inferiori, specialmente nel benchmark OTIS Mock AIME, dove o3-mini ha raggiunto una precisione superiore di 39 punti percentuali.

la validità dei benchmark

Un’altra questione importante riguarda la validità dei benchmark utilizzati per valutare le capacità degli LLM. Recentemente, The Atlantic ha suggerito che i progressi nell’intelligenza artificiale generativa potrebbero essere sopravvalutati. I benchmark utilizzati da aziende come OpenAI, Google e DeepSeek potrebbero essere influenzati da una “contaminazione”, poiché i chatbot sono addestrati con dati che includono le stesse domande utilizzate per la valutazione. Questo solleva interrogativi sulla reale capacità di apprendimento e generalizzazione dei modelli.

Alcuni ricercatori hanno dimostrato che modelli come GPT-4 hanno memorizzato risposte a test MMLU piuttosto che sviluppare vere capacità di elaborazione. Ciò solleva interrogativi su quanto i nuovi modelli, presentati come “i migliori di sempre”, siano effettivamente in grado di generalizzare le loro conoscenze e risolvere problemi non già affrontati in fase di addestramento.

In questo contesto, è essenziale interrogarsi sulle reali capacità di GPT-4.5 e se sia in grado di mantenere le promesse fatte da OpenAI. Nonostante i progressi nel miglioramento delle prestazioni, la questione dell’effettiva capacità di ragionamento e comprensione profonda rimane aperta. Gli utenti possono trovare in GPT-4.5 uno strumento utile e versatile, ma è fondamentale non perdere di vista le sue limitazioni e le sfide ancora da affrontare nel campo dell’intelligenza artificiale.

Con l’accesso ampliato a GPT-4.5, sarà interessante osservare come gli utenti sfrutteranno le potenzialità di questo modello e se riuscirà a soddisfare le aspettative di chi cerca un’assistenza più sofisticata nelle proprie interazioni quotidiane. La continua evoluzione dei modelli di intelligenza artificiale solleva interrogativi non solo sulla loro capacità di generazione del linguaggio, ma anche sull’etica e sull’affidabilità delle informazioni che producono.

Claudia Lisi

Recent Posts

Miliardari al giuramento di Trump: una perdita da 209 miliardi

Il 20 gennaio 2017 ha segnato un momento storico con l'insediamento di Donald Trump come…

3 ore ago

Scarica TikTok sul tuo PC in pochi semplici passaggi

Negli ultimi anni, TikTok è emerso come uno dei social network più influenti e amati…

5 ore ago

Scopri come attivare la funzione ‘visualizzato’ su Instagram

Instagram è uno dei social network più amati e utilizzati al mondo, un luogo dove…

6 ore ago

Convertire video in MP3 in un attimo: scopri la nuova funzione di PowerToys per Windows

L'aggiornamento alla versione 0.89.0 di PowerToys, la suite di utilità avanzate per Windows sviluppata da…

10 ore ago

Social X in crisi: ecco perché oggi non funziona a dovere

Nella mattinata di oggi, il social X, precedentemente noto come Twitter, ha fatto registrare un…

1 giorno ago

Manus: l’intelligenza artificiale cinese che rivoluziona il nostro modo di lavorare

Un nuovo protagonista si affaccia nel panorama dell'intelligenza artificiale: Manus, un software sviluppato dalla startup…

1 giorno ago