Benchmark trapelati: Meta Llama 3.1 potrebbe superare GPT-4o di OpenAI


Benchmark trapelati: Meta Llama 3.1 potrebbe superare GPT-4o di OpenAI

Nel panorama dell'intelligenza artificiale si prospetta una svolta epocale. Benchmark trapelati su Reddit dal subreddit LocalLLaMA suggeriscono che il prossimo modello open-source di Meta, Llama 3.1 405B, potrebbe superare l'attuale leader, GPT-4o di OpenAI.

Ricordiamo che ad aprile 2024, Meta aveva lanciato Llama 3, la sua nuova generazione di modelli open-source di linguaggio di grandi dimensioni (LLM). I primi due modelli, Llama 3 8B e Llama 3 70B, avevano stabilito nuovi record per gli LLM della loro categoria. Tuttavia, nel giro di soli tre mesi, diversi altri modelli li avevano già superati in termini di performance.

Meta aveva già annunciato che il suo modello Llama 3 più grande avrebbe avuto oltre 400 miliardi di parametri e che si trovava ancora in fase di training. I leak di oggi riguardano proprio i benchmark preliminari dei modelli Llama 3.1 8B, 70B e 405B.

Stando ai dati trapelati, Meta Llama 3.1 405B potrebbe superare GPT-4o su diversi benchmark chiave dell'intelligenza artificiale. Si tratterebbe di un risultato monumentale per la comunità open-source dell'IA, segnando la prima volta in cui un modello open-source potrebbe potenzialmente battere il modello LLM closed-source leader di mercato.

Durante il lancio di Llama 3, Meta aveva dichiarato:

"Siamo impegnati nella crescita e nello sviluppo continui di un ecosistema di intelligenza artificiale aperto per rilasciare i nostri modelli in modo responsabile. Crediamo fermamente che l'apertura porti a prodotti migliori e più sicuri, a un'innovazione più rapida e a un mercato complessivamente più sano. Questo è positivo per Meta ed è positivo per la società."

Come mostrato dai benchmark, Meta Llama 3.1 supera GPT-4o su diversi test, tra cui GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem e winograd. Tuttavia, GPT-4o rimane in vantaggio su HumanEval e MMLU-social sciences.

È importante sottolineare che questi numeri si riferiscono ai modelli base di Llama 3.1. Per sbloccare completamente il potenziale del modello, è fondamentale l' "instruction-tuning". Molti di questi risultati potrebbero migliorare con il rilascio delle versioni Instruct dei modelli Llama 3.1.

Sebbene il prossimo GPT-5 di OpenAI, con le sue previste capacità di ragionamento avanzato, possa mettere in discussione la potenziale leadership di Llama 3.1 nel settore degli LLM, le ottime prestazioni di Llama 3.1 contro GPT-4o evidenziano comunque la potenza e il potenziale dello sviluppo open-source dell'intelligenza artificiale. Questo continuo progresso potrebbe democratizzare l'accesso alla tecnologia IA all'avanguardia e accelerare l'innovazione nel settore tecnologico.

Fonte della notizia