GPT-4.5, il nuovo modello di OpenAI è arrivato e siamo davanti a un nuovo punto di riferimento nell’ambito degli LLM.
Poiché non è un modello focalizzato sul ragionamento, non sarà migliore della serie “o” in ambiti come scienza e programmazione, ma eccelle in compiti che richiedono maggiore intelligenza emotiva (EQ) e creatività.
L’architettura e le evoluzioni di GPT-4.5
Pur non essendo classificato come un cosiddetto “frontier model”, GPT-4.5 si basa su un’architettura di dimensioni maggiori rispetto ai suoi predecessori, sfruttando al contempo nuove strategie di addestramento e tecniche di ottimizzazione che ne migliorano sensibilmente l’efficienza computazionale, al punto da raggiungere livelli di rapidità di calcolo fino a dieci volte superiori rispetto a GPT-4.
Il modello è migliorato sensibilmente, rispetto alle versioni precedenti, in aree come l’accuratezza fattuale, la riduzione delle allucinazioni e la velocità di calcolo.
L’evoluzione di GPT-4.5 rappresenta un momento significativo nel percorso verso modelli sempre più avanzati, versatili e affidabili.
Credo possa valere la pena soffermarsi su alcuni dettagli meno noti ma altrettanto importanti, che permettono di comprendere meglio l’approccio adottato da OpenAI nello sviluppo di GPT-4.5.
Quattro curiosità su GPT-4.5
Dietro GPT-4.5 c’è un vero e proprio tour de force di engineering e ricerca. Ecco quattro curiosità.
Nuovo approccio di training “Iterative Reinforcement Learning from Human Feedback (IRLHF)”
IRLHF è un metodo di addestramento in cui il modello riceve feedback continui da revisori umani attraverso cicli iterativi e mirati. L’obiettivo è allineare progressivamente le risposte agli standard qualitativi definiti, riducendo errori e bias.
Si tratta di una evoluzione del RLHF (Reinforcement Learning from Human Feedback), una tecnica analoga ma meno iterativa, in cui il modello viene addestrato a partire da valutazioni umane che ne guidano lo sviluppo: a ogni passo, le indicazioni ricevute dagli operatori umani servono a “premiare” le risposte migliori e a “correggere” quelle insoddisfacenti, con l’obiettivo di stabilizzare gradualmente il comportamento del modello su risposte coerenti, utili e prive di bias evidenti.
Rispetto al classico RLHF, GPT-4.5 beneficia di cicli di addestramento più brevi, con feedback più mirati da parte dei revisori umani. Questo ha consentito di affinare il modello in modo costante, riducendo al minimo la sovradispersione (overfitting) su specifici dataset. Nella sostanza, pur affinando costantemente il modello, si è riusciti a fare in modo che questo non si adattasse troppo solo ai dati utilizzati in fase di addestramento, ma mantenesse buone prestazioni anche su dati mai visti prima.
Dataset potenziato
Per sviluppare GPT-4.5, OpenAI ha impiegato dati di dominio ancora più specializzati, ad esempio testi legislativi, documentazione medica e contenuti tecnici avanzati. L’idea è stata garantire che il modello potesse gestire richieste complesse in nicchie molto diverse tra loro.
Fasi di “stress test”
Prima del rilascio, GPT-4.5 è stato sottoposto a un severo stress test in cui migliaia di prompt, anche volutamente confusi o provocatori, hanno messo alla prova la sua capacità di restare “calmo” e fornire risposte adeguate. Questo ha contribuito a limare ulteriormente le tendenze a fornire risposte improprie o con bias problematici.
Riduzione dell’impronta energetica
Un aspetto spesso trascurato, ma che OpenAI sottolinea con forza, è il tentativo di rendere l’addestramento di GPT-4.5 più efficiente dal punto di vista computazionale. Grazie a nuove ottimizzazioni hardware e algoritmi di pruning selettivi (tecniche per rimuovere in modo mirato parti non necessarie del modello, come neuroni o connessioni con poca rilevanza), è stato ridotto l’impatto energetico complessivo rispetto a GPT-4, senza sacrificare le prestazioni.
Sviluppo, prestazioni ed efficienza di GPT-4.5
Una parte della evoluzione che questo nuovo modello porta con se deriva dalla combinazione di due paradigmi di sviluppo: da una parte l’unsupervised learning (che aumenta l’ampiezza e la profondità del “world model”: la rappresentazione interna che l’IA costruisce del mondo, delle sue regole, delle connessioni tra concetti e delle relazioni causa-effetto), dall’altra il reasoning (ovvero l’abilità di elaborare catene di pensiero più complesse e di avvicinarsi a problemi logico-matematici tipici degli ambiti STEM). GPT-4.5 si colloca saldamente sul primo asse, spingendo l’unsupervised learning a nuovi livelli attraverso dataset di dimensioni ancora maggiori e tecniche di ottimizzazione mirate. L’obiettivo? Rendere il modello più intuitivo e ampio nelle sue conoscenze, riducendo al minimo gli errori di interpretazione delle informazioni.
Uno degli aspetti più sorprendenti di GPT-4.5 è la sua efficienza computazionale: rispetto a GPT-4, le ottimizzazioni a livello di architettura e il ricorso a strategie di training sempre più raffinate, citate poco sopra, hanno portato a un incremento di velocità che alcuni stimano fino a 10 volte superiore. Questo si traduce in tempi di risposta più rapidi, minori costi operativi e una maggior facilità d’integrazione in applicazioni reali, dove la rapidità di elaborazione risulta cruciale.
Quanto alla precisione, GPT-4.5 eccelle in diversi benchmark consolidati, come il MMLU o il Bar Exam, ma brilla in particolar modo su SimpleQA, un test di fattualità che verifica la capacità del modello di fornire risposte corrette a domande non banali. Secondo le rilevazioni più recenti, GPT-4.5 raggiunge un’accuratezza del 62,5%, nettamente sopra GPT-4o (38%) e o3-mini (15%). Un risultato che conferma l’importanza di un “world model” più solido e di un addestramento più mirato a ridurre la tendenza all’invenzione di fatti inesistenti.
Allucinazioni, “coscienza contestuale” e sicurezza di GPT-4.5
Uno dei principali talloni d’Achille dei modelli linguistici di ultima generazione consisteva nella capacità di generare informazioni inventate o non supportate dai dati di addestramento, il fenomeno definito “hallucination”.
GPT-4.5 ha il tasso di allucinazione più basso (37.1%), il che significa che produce risposte errate meno frequentemente rispetto agli altri modelli: l’ormai noto GPT-4o ha un tasso di allucinazione del 61.0%, mentre o1 sempre di Openai si colloca a metà strada con un tasso del 44.0%.
Credo valga la pena sottolineare il fatto che un modello che genera meno allucinazioni è più affidabile, riduce la necessità di verifiche manuali e diventa davvero utile.
Spesso, in tanti si concentrano solo (oppure troppo) su velocità e benchmark, senza valutare che è l’usabilità ciò che conta davvero.
La chiave di questo risultato sta proprio nell’approccio “scaled unsupervised learning”, che offre al modello una comprensione più ampia del contesto e una maggiore dimestichezza con fonti di conoscenza eterogenee.
L’approccio fortemente general-purpose di GPT-4.5
Mentre alcune varianti di OpenAI (come la cosiddetta “o-series”) risultano più orientate ad ambiti STEM o a specifiche aree, GPT-4.5 esprime un approccio fortemente general-purpose. Questo lo rende particolarmente adatto a un’ampia gamma di scenari, dalla ricerca accademica ai progetti di customer service su larga scala, fino alle attività di generazione e revisione di testi in contesti professionali.
L’attenzione verso una comunicazione più “calda” e intuitiva, come viene citata più volte nelle documentazioni ufficiali, fa sì che GPT-4.5 possa interagire con l’utente in modo più empatico e naturale, senza perdere di vista l’accuratezza.
Nonostante la potenza computazionale e la complessità del modello siano cresciute, GPT-4.5 non presenta rischi sostanzialmente nuovi rispetto a GPT-4o o alle precedenti iterazioni della “linea GPT”. L’adozione di tecniche come il Reinforcement Learning from Human Feedback (RLHF) e nuovi metodi di allineamento (alignment) ha permesso di mantenere sotto controllo i bias e di limitare le risposte inadeguate, oltre che di garantire maggiore trasparenza sul funzionamento del modello.
GPT-4.5 si candida a nuovo standard di mercato
Se, come sembra, GPT-4.5 si candida a nuovo standard di mercato, la sua adozione su ampia scala è ancora in fase di “research preview”. OpenAI, tra le altre cose, ha dichiarato di voler proseguire nell’affinamento del modello sulla base di feedback reali, testando fino a che punto le ottimizzazioni introdotte ne garantiscano la stabilità in un ventaglio diversificato di contesti d’uso.
Dalle valutazioni interne e dai primi feedback, è evidente che GPT-4.5 alzi l’asticella delle prestazioni, dimostrandosi un modello più veloce, più rigoroso e più flessibile della generazione precedente.
I progressi più tangibili sembrano derivare soprattutto da un approccio integrato, in cui il puro “scaling” dei parametri si fonde con nuove tecniche di reasoning e un allenamento più accurato e selettivo. Ne risulta un modello che riduce gli errori e amplia la propria gamma di competenze, avvicinandosi ulteriormente all’ideale di un assistente virtuale onnisciente e affidabile.
Verso il pensiero artificiale alla portata di tutti
Nelle prossime settimane vedremo se questa velocità e profondità di comprensione si confermeranno anche fuori dai laboratori di ricerca. In quel caso potremmo trovarci davanti alla piattaforma di riferimento per un’ampia gamma di applicazioni, dall’automazione dei processi di business alla consulenza specialistica, fino agli assistenti personali più evoluti. Insomma, un ulteriore passo verso un futuro in cui il “pensiero” artificiale sarà sempre più articolato, affidabile e a portata di tutti.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link