giovedì, Ottobre 5, 2023
HomeIntelligenza ArtificialeChatGPTLe prestazioni di ChatGPT sono cambiate nel tempo, secondo uno studio di...

Le prestazioni di ChatGPT sono cambiate nel tempo, secondo uno studio di Stanford, il bot è peggiorato?

Cosa hai bisogno di sapere

  • Uno studio condotto da ricercatori di Stanford mostra un calo delle prestazioni del chatbot di OpenAI.
  • I ricercatori hanno utilizzato quattro indicatori chiave di prestazione per determinare se GPT-4 e GPT-3.5 stavano migliorando o peggiorando.
  • Entrambi gli LLM mostrano prestazioni e comportamenti diversi in diverse categorie.

All’inizio di quest’anno, le porte dell’IA generativa si sono spalancate, portando alla luce una nuova realtà di opportunità. Il nuovo Bing di Microsoft e ChatGPT di OpenAI sono stati in prima linea, con altre società che hanno seguito da vicino l’esempio con modelli e iterazioni simili.

Mentre OpenAI è stato impegnato a spingere nuovi aggiornamenti e funzionalità al suo chatbot basato sull’Intelligenza Artificiale per migliorare la sua esperienza utente, un gruppo di ricercatori di Stanford è giunto a un nuova rivelazione Quello ChatGPT è diventato più stupido negli ultimi mesi.

Il documento di ricerca “Come cambia il comportamento di ChatGPT nel tempo?” di Lingjiao Chen, Matei Zaharia e James Zou della Stanford University e UC Berkley illustra come le funzionalità chiave del chatbot si siano deteriorate negli ultimi mesi.

Fino a poco tempo fa, ChatGPT si basava sul modello GPT-3.5 di OpenAI, che limitava la portata dell’utente a vaste risorse sul Web perché era limitato alle informazioni fino a settembre 2021. E mentre da allora OpenAI ha debuttato con Bing nell’App ChatGPT per iOS per migliorare l’esperienza di navigazione, avrai comunque bisogno di un abbonamento ChatGPT Plus per accedere alla funzione.

GPT-3.5 e GPT-4 vengono aggiornati utilizzando feedback e dati degli utenti, tuttavia è impossibile stabilire esattamente come ciò avvenga. Probabilmente, il successo o il fallimento dei chatbot è determinato dalla loro accuratezza. Basandosi su questa premessa, i ricercatori di Stanford si sono proposti di comprendere la curva di apprendimento di questi modelli valutando il comportamento delle versioni di marzo e giugno di questi modelli.

Per determinare se ChatGPT stava migliorando o peggiorando nel tempo, i ricercatori hanno utilizzato le seguenti tecniche per valutarne le capacità:

  • Risolvere problemi di matematica
  • Rispondere a domande delicate/pericolose
  • Generazione di codice
  • Ragionamento visivo

I ricercatori hanno sottolineato che i compiti di cui sopra sono stati accuratamente selezionati per rappresentare le “capacità diverse e utili di questi LLM”. Ma in seguito hanno determinato che le loro prestazioni e il loro comportamento erano completamente diversi. Hanno inoltre affermato che le loro prestazioni su determinati compiti sono state influenzate negativamente.

Ecco i principali risultati dei ricercatori dopo aver valutato le prestazioni delle versioni di marzo 2023 e giugno 2023 di GPT-4 e GPT-3.5 sui quattro tipi di attività sopra evidenziate:

In poche parole, ci sono molti cambiamenti di prestazioni interessanti nel tempo. Ad esempio, GPT-4 (marzo 2023) è stato molto bravo nell’identificare i numeri primi (precisione 97,6%) ma GPT-4 (giugno 2023) è stato molto scarso su queste stesse domande (precisione 2,4%). È interessante notare che GPT-3.5 (giugno 2023) è stato molto migliore di GPT-3.5 (marzo 2023) in questo compito. Ci auguriamo che il rilascio dei set di dati e delle generazioni possa aiutare la comunità a capire come i servizi LLM si spostano meglio. La figura sopra fornisce un riepilogo (quantitativo).

Ricercatori di Stanford

Analisi di performance

Innanzitutto, entrambi i modelli avevano il compito di risolvere un problema di matematica, con i ricercatori che monitoravano attentamente l’accuratezza e la sovrapposizione delle risposte di GPT-4 e GPT-3.5 tra le versioni di marzo e giugno dei modelli. Ed era evidente che c’era stata una grande deriva delle prestazioni, con il modello GPT-4 che seguiva il prompt della catena di pensieri e alla fine forniva la risposta corretta a marzo. Tuttavia, a giugno non è stato possibile replicare gli stessi risultati poiché il modello ha saltato l’istruzione della catena di pensiero e ha dato apertamente la risposta sbagliata.

LLM che risolvono problemi di matematica
(Credito immagine: Stanford Researchers)

Per quanto riguarda GPT-3.5, è rimasto fedele al formato della catena di pensiero, ma inizialmente ha dato la risposta sbagliata. Tuttavia, il problema è stato corretto a giugno, con il modello che mostra miglioramenti in termini di prestazioni.

“L’accuratezza di GPT-4 è scesa dal 97,6% di marzo al 2,4% di giugno, e c’è stato un notevole miglioramento dell’accuratezza di GPT-3.5, dal 7,4% all’86,8%. Inoltre, la risposta di GPT-4 è diventata molto più compatta: la sua verbosità media (numero di caratteri generati) è diminuita da 821,2 a marzo a 3,8 a giugno. D’altra parte, c’è stata una crescita di circa il 40% nella lunghezza delle risposte di GPT-3.5. Anche la sovrapposizione delle risposte tra le versioni di marzo e giugno è stata piccolo per entrambi i servizi.” hanno affermato i ricercatori di Stanford. Hanno inoltre attribuito le disparità alle “derive degli effetti della catena di pensieri”.

Entrambi gli LLM hanno fornito una risposta dettagliata a marzo quando sono stati interrogati su domande delicate, citando la loro incapacità di rispondere a richieste con tracce di discriminazione. Mentre a giugno entrambi i modelli si sono palesemente rifiutati di dare una risposta alla stessa domanda.

Gli utenti che fanno parte della comunità r/ChatGPT su Reddit hanno espresso un cocktail di sentimenti e teorie sui risultati chiave del rapporto, come evidenziato di seguito:

openAI sta cercando di ridurre i costi di gestione di chatGPT, dal momento che stanno perdendo molti soldi. Quindi stanno modificando gpt per fornire risposte della stessa qualità con meno risorse e testarle molto. Se vedono regressioni, tornano indietro e provano qualcosa di diverso. Quindi, a loro avviso, non è diventato più stupido, ma è diventato molto più economico. Il problema è che nessun test è completamente comprensibile e sicuramente aiuterebbe se espandessero un po ‘la suite di test. Quindi, mentre è lo stesso nel loro test, potrebbe essere molto peggio in altri test, come quelli sul giornale. Ecco perché vediamo anche la variazione sul feedback, in base al caso d’uso: alcuni possono giurare che è lo stesso, per altri è stato terribile

Tucpek, Reddit

È ancora troppo presto per determinare quanto sia accurato questo studio. È necessario condurre ulteriori benchmark per studiare queste tendenze. Ma ignorare questi risultati e se gli stessi risultati possono essere replicati su altre piattaforme, come Bing Chat, è impossibile.

Come forse ricorderete, poche settimane dopo il lancio di Bing Chat, diversi utenti hanno citato casi in cui il chatbot era stato maleducato o aveva dato apertamente risposte sbagliate alle domande. A sua volta, ciò ha indotto gli utenti a mettere in dubbio la credibilità e l’accuratezza dello strumento, spingendo Microsoft a mettere in atto misure elaborate per prevenire il ripetersi di questo problema. Certo, la società ha costantemente inviato nuovi aggiornamenti alla piattaforma e si possono citare diversi miglioramenti.

I ricercatori di Stanford hanno detto:

“I nostri risultati dimostrano che il comportamento di GPT-3.5 e GPT-4 è variato in modo significativo in un periodo di tempo relativamente breve. Ciò evidenzia la necessità di valutare e valutare continuamente il comportamento degli LLM nelle applicazioni di produzione. Abbiamo in programma di aggiornare i risultati presentati qui in uno studio a lungo termine in corso valutando regolarmente GPT-3.5, GPT-4 e altri LLM su diverse attività nel tempo. Per gli utenti o le aziende che si affidano ai servizi LLM come componente del loro flusso di lavoro in corso, consigliamo di implementare analisi di monitoraggio simili a quelle che facciamo qui per le loro applicazioni”,

 

RELATED ARTICLES