Info

Learning a little every day

Posts tagged gpt-3

Misschien heb je op Twitter de hashtag #gpt3 voorbij zien komen? Dan was je vlakbij kunstmatige intelligentie. 😉

GPT-3 staat namelijk voor Generative Pretrained Transformer versie 3 (wikipedia). Kort door de bocht is dat een taalmodel dat ontstaan is door patronen te zoeken in grote hoeveelheden informatie. In dit geval enorme hoeveelheden informatie! Met wat het daar geleerd heeft kan GPT-3 zelf uitgebreid en aardig coherent antwoorden genereren op vragen die je stelt.

Wat is een taalmodel?

Wij denken er nooit over na, maar we hebben allemaal een eigen taalmodel. Dat helpt ons sneller te lezen of luisteren. Op basis daarvan vullen we letters en woorden al in voordat we ze lezen:

Als je bijvoorbeeld al de letters carnava.. voor je ziet, weet je dat je op de puntjes waarschijnlijk een l kunt verwachten. En na het lezen van br… verwacht je hoogstwaarschijnlijk geen k. Niet alleen op letter-niveau, maar ook op woordniveau is de afloop soms goed te voorspellen. Na ‘met terugwerkende …’ verwacht je ‘kracht’ en na ‘het is veel te …’ volgt waarschijnlijk een bijvoeglijk naamwoord (bv ‘heet’ of ‘kort’) en geen zelfstandig naamwoord (bv ‘fiets’ of ‘brood’).

GPT-3 doet ongeveer hetzelfde, maar omdat het model getraind is op zoveel informatie kan het uitgebreider en beter teksten ‘schrijven’ dan eerdere generatieve taalmodellen (zoals voorganger GPT-2).

Hoe het dat geleerd heeft legt Jay Alammar in een korte animatie uit:
GPT-3 is getraind op 300 miljard tekens tekst, met als doel om woorden te kunnen voorspellen.

Alles uit de gigantische dataset waaraan het model is blootgesteld is omgezet in 175 miljard parameters. Die gebruikt GPT-3 als je het iets vraagt (input), en op basis daarvan genereert het zelf een antwoord.

Wat kan GPT-3?

Eigenlijk kan GPT-3 gewoon schrijven. Alleen dan schrijven in de breedste zin van het woord, van gedichten tot programmeercode. En veel beter dan eerdere AI-taalmodellen.

In de afgelopen weken is met GPT-3:

En veel meer.

En als je puur kijkt naar de kwaliteit van de teksten die GPT-3 ‘schrijft’? Gwern Bransen is onder de indruk:

GPT-3’s samples are not just close to human level: they are creative, witty, deep, meta, and often beautiful. They demonstrate an ability to handle abstractions, like style parodies, I have not seen in GPT-2 at all. Chatting with GPT-3 feels uncannily like chatting with a human.

Wat betekent GPT-3?

In de New York Times is Farhad Manjoo erg overtuigd:

Software like GPT-3 could be enormously useful. Machines that can understand and respond to humans in our own language could create more helpful digital assistants, more realistic video game characters, or virtual teachers personalized to every student’s learning style. Instead of writing code, one day you might create software just by telling machines what to do.

Meer praktisch ziet Max Woolf, in vergelijking met GPT-2, twee grote verbeteringen in GPT-3:

  1. it allows generation of text twice the length of GPT-2 (about 10 paragraphs of English text total), and
  2. the prompts to the model better steer the generation of the text toward the desired domain (due to few-shot learning).
    For example, if you prompt the model with an example of React code, and then tell it to generate more React code, you’ll get much better results than if you gave it the simple prompt.
    Kortom: het GPT-3-taalmodel kan veel langere teksten genereren en beter gestuurd worden met uitgebreidere input.

Maar in de online voorbeelden is GPT-3 ook langzaam. En zijn menselijke vooroordelen die overal op internet te vinden zijn ook in het model aanwezig.

Het is mooi, maar nog zeker geen magie.