Cervelli menti algoritmi by Tommaso Poggio & Marco Magrini
autore:Tommaso Poggio & Marco Magrini [Poggio, Tommaso & Magrini, Marco]
La lingua: ita
Format: epub
editore: SPERLING & KUPFER
pubblicato: 2023-09-27T12:00:00+00:00
Lâepopea dei modelli di linguaggio
Nel 2017, Google pubblica il famoso articolo sui transformer. Nel 2019, OpenAI presenta GPT-2, da molti considerato come il primo language model sufficientemente large, con un miliardo e mezzo di parametri, ovvero di «pesi» calcolati durante la fase di training. Nel 2020, Google annuncia il suo LLM chiamato LaMDA, poi sviluppato in tre modelli, il più grande dei quali ha 137 miliardi di parametri. Nel 2022, oltre ai primi modelli a diffusione come DALL-E, Stable Diffusion e il popolare Midjourney, compare GPT-3.5 con i suoi 175 miliardi di parametri. Il numero dei parametri della versione GPT-4 non è stato rivelato, ma qualcuno dice che si aggiri sui 1.000 miliardi.
Lâavvento delle tecnologie generative ha repentinamente cambiato lo scenario della AI, che si è in qualche modo allontanata dal modello neurobiologico del cervello umano: è diminuita lâimportanza dellâalgoritmo ed è aumentata quella dei dati. Un uomo impiegherebbe migliaia di anni per leggere tutto quel che GPT ha digerito.
Come già detto, «GPT» sta per Generative Pre-trained Transformer. Il transformer è il modello di rete neuronale. à generativo perché il suo mestiere è quello di predire la parola da usare sulla base delle parole che la precedono. Ed è pre-trained perché viene allenato ad autoprodurre un microcosmo di relazioni fra le parole, dandogli in pasto la massima quantità di dati possibile, che lui masticherà per giorni e settimane con i denti di centinaia di GPU e TPU, fino a digerire una bella fetta delle conoscenze umane.
Questo microcosmo di parole è effettivamente rappresentato nello spazio geometrico sotto forma di vettori, abitualmente usati in matematica per quantità che non possono essere espresse con un solo numero. Se prendo le parole «zebra», «pipistrello» e «serpente», tutte e tre appartengono alla categoria «animale», due soltanto a «mammifero» e una soltanto a «sa volare». Queste relazioni vengono codificate nei vettori sotto forma di punti nello spazio, dove più le parole sono associate più sono vicine fra loro. Ora, noi siamo abituati a concepire un punto nello spazio bidimensionale degli assi cartesiani o nello spazio tridimensionale nel quale viviamo. Qui, invece, per contenere le molteplici relazioni fra le parole nei loro molteplici significati è necessario usare uno spazio multidimensionale, impossibile da visualizzare graficamente.
OpenAI non ha rivelato quali sorgenti abbia utilizzato per il training di GPT-3. Si dà per scontato che abbia usato i migliori dataset di puro testo disponibili. Si comincia con CommonCrawl, che dal 2018 scannerizza e conserva il contenuto di pagine web, incluse quelle che nel frattempo sono state cancellate. Poi câè WebText, un corpus di dati ricavati dalla stessa OpenAI collezionando 45 milioni dei link più votati su Reddit, un popolare sito di discussione e di aggregazione di notizie. Book1 e Book2 sono due dataset che contengono un numero enorme di libri disponibili online e non soggetti a copyright. Infine, câè ovviamente Wikipedia, la grande enciclopedia multilingue scritta e verificata gratuitamente dagli utenti. Ma è verosimile che ci sia molto, molto di più.
Prendiamo il caso di Google Books. Nel 2004 Google si lancia
scaricare
Questo sito non memorizza alcun file sul suo server. Abbiamo solo indice e link contenuto fornito da altri siti. Contatta i fornitori di contenuti per rimuovere eventuali contenuti di copyright e inviaci un'email. Cancelleremo immediatamente i collegamenti o il contenuto pertinenti.
La quarta rivoluzione. Come l'infosfera sta trasformando il mondo by Luciano Floridi(1434)
Lolita by Unknown(1167)
Il verde e il blu by Luciano Floridi(1069)
Alan Turing: The Imitation Game - Storia di un enigma by Hodges Andrew(1039)
Alan Turing by Andrew Hodges(935)
Fisica del futuro by Michio Kaku(866)
Una di Luna (Italian Edition) by Andrea De Carlo(842)
Singolarità by David Orban(809)
65 (Nero Edizioni) by Alexandre Laumonier(768)
Superintelligenza by Nick Bostrom(757)
L’informazione by James Gleick(726)
Fisica I by Unknown(720)
65 by Alexandre Laumonier(714)
Psicologia dei videogiochi by Stefano Triberti Luca Argenton(691)
Galatea 2.2 by Richard Powers(669)
La vita tra reale e virtuale. Meet the media guru by Zygmunt Bauman(665)
Machine Learning - una introduzione dettagliata: Un libro destinato a chi vuol addentrarsi nello studio del machine learning (Italian Edition) by Francesco Scala(659)
La biblioteca senza libri by David A. Bell(646)
My World by Peter Sagan(638)