Give AI curiosity and it plays video games all day

Als je een robot leert vissen, zal hij waarschijnlijk vis vangen. Als je hem echter leert nieuwsgierig te zijn, zal hij gewoon de hele dag tv-kijken en videospellen spelen. Onderzoekers van Open AI — de denktank gericht op singulariteit, mede-opgericht door Elon Musk — hebben onlangs een onderzoeksartikel gepubliceerd met details over een grootschalige studie naar nieuwsgierigheidsgedreven leren. Daarin laten ze zien hoe AI-modellen die getraind zijn zonder “extrinsieke beloningen” vaardigheden kunnen ontwikkelen en leren. Kortom, ze hebben uitgevonden hoe je AI zover krijgt om dingen te doen zonder expliciet te vertellen wat de doelen zijn.


Volgens het whitepaper van het team "is dit niet zo vreemd als het klinkt. Ontwikkelingspsychologen spreken over intrinsieke motivatie (d.w.z. nieuwsgierigheid) als de belangrijkste drijfveer in de vroege stadia van ontwikkeling: Baby's lijken doelgerichte verkenning te gebruiken om vaardigheden te leren die later in het leven nuttig zullen zijn. Er zijn tal van andere voorbeelden, van het spelen van Minecraft tot een bezoek aan je lokale dierentuin, waar geen extrinsieke beloningen nodig zijn."



Het idee hier is dat als we machines kunnen laten verkennen in omgevingen zonder door mensen gecodeerde beloningen, we een stap dichter bij echt autonome machines zullen zijn. Dit kan ongelooflijke implicaties hebben voor zaken zoals de ontwikkeling van reddingsrobots of het verkennen van de ruimte.


Om de effecten van intrinsiek gemotiveerd diep leren te bestuderen, richtten de onderzoekers zich op videospellen. Deze omgevingen zijn perfect geschikt voor AI-onderzoek vanwege hun inherente regels en beloningen. Ontwikkelaars kunnen AI bijvoorbeeld laten spelen, Pong, en specifieke voorwaarden geven zoals “verlies niet”, wat de AI zou aanzetten om het scoren van punten te prioriteren (theoretisch).


Toen de onderzoekers experimenten uitvoerden in de Atari-dataset, Super Mario Bros., en Pong-omgevingen, ontdekten ze dat agenten zonder doelen vaardigheden konden ontwikkelen en leren, hoewel de resultaten soms een beetje... interessant werden.


De nieuwsgierigheidsgedreven agent stelt min of meer zijn eigen regels op. Hij is gemotiveerd om nieuwe dingen te ervaren. Dus bijvoorbeeld wanneer hij Breakout speelt – het klassieke spel waarbij je stenen kapotslaat – presteert hij goed omdat hij zich niet wil vervelen:


"Hoe vaker de stenen achter elkaar door de bal worden geraakt, hoe ingewikkelder het patroon van overgebleven stenen wordt, waardoor de agent nieuwsgieriger wordt om verder te verkennen, en dus punten verzamelt als bijproduct. Bovendien, wanneer de agent geen levens meer heeft, worden de stenen opnieuw ingesteld naar een uniforme structuur die de agent al vaak heeft gezien en dus zeer voorspelbaar is, dus probeert de agent in leven te blijven om nieuwsgierig te blijven door de reset door dood te vermijden."


De AI slaagde erin om 11 levels van Super Mario Bros. te voltooien, puur uit nieuwsgierigheid, wat aangeeft dat een AI met voldoende trainingssessies zonder doelen behoorlijk uitzonderlijk kan presteren.


Het is echter niet allemaal rozengeur en maneschijn in de wereld van kunstmatige intelligentie – nieuwsgierige machines hebben last van dezelfde problemen als nieuwsgierige mensen: ze raken gemakkelijk afgeleid. Toen onderzoekers twee nieuwsgierige Pong-spelende bots tegen elkaar lieten spelen, negeerden ze de wedstrijd en besloten ze te zien hoeveel rally's ze samen konden bereiken.


Het onderzoeksteam testte ook een veelvoorkomend gedachte-experiment genaamd het “Noisy TV-probleem.” Volgens het whitepaper van het team:


"Het idee is dat lokale bronnen van entropie in een omgeving, zoals een tv die willekeurig van kanaal verandert wanneer een actie wordt ondernomen, een onweerstaanbare aantrekkingskracht zouden moeten vormen voor onze agent. We nemen dit gedachte-experiment letterlijk en voegen een tv toe aan het doolhof, samen met een actie om van kanaal te veranderen."


Het blijkt dat ze gelijk hadden, er was een aanzienlijke daling in prestaties wanneer de AI probeerde een doolhof te doorlopen en een virtuele tv tegenkwam. Deze nieuwsgierige machine learning-agenten lijken de meest mensachtige AI te zijn die we tot nu toe zijn tegengekomen. Wat zegt dat over ons?


Dit verhaal is gepubliceerd in samenwerking met The Next Web. Lees het originele artikel hier.

Picked Articles ...
Loading stories...

Comments (0)

Share your thoughts and join the technology debate!

No comments yet

Be the first to share your thoughts!