Een Japanse puzzel heeft kunstmatige intelligentie verslagen. De machine is er absoluut niet in geslaagd de puzzel op te lossen.

Cijferpuzzels zijn al millennia lang een populair tijdverdrijf – ze verschenen voor het eerst in het oude China en verschenen eind 19e eeuw in kranten. Zo'n 20 jaar geleden werd Sudoku wereldwijd populair, een puzzel die voor het eerst werd gepubliceerd in 1986 in het Japanse tijdschrift "Nicoli". Tegenwoordig heeft het spel miljoenen fans wereldwijd en zijn verschillende versies van de mobiele app alleen al door ongeveer 200 miljoen gebruikers gedownload.
Sudoku houdt in dat je lege vakjes op een 9x9-raster invult met getallen. Elke rij, kolom en 3x3-vak (het zogenaamde getallenblok) waarin het raster is verdeeld, moet één cijfer van 1 tot en met 9 bevatten, en geen enkel cijfer mag herhaald worden. Wiskundigen van de Universiteit van Sheffield (VK) bewezen in 2005 dat er ongeveer 6 biljard mogelijke geldige sudoku-rasters zijn (6 x 10 tot de 21e macht). Er bestaan ook andere versies van het spel: bijvoorbeeld een 6x6-raster moet worden ingevuld met de cijfers 1 tot en met 6.
Nu blijkt dat sudoku een uitdaging vormt voor kunstmatige intelligentie. Hoewel AI enorme vooruitgang boekt in onder andere het analyseren van grote datasets, het genereren van tekst, afbeeldingen en video's, en het vertalen ervan, vormen logische taken de zwakke plek. Dit werd bevestigd door onderzoekers van de Universiteit van Colorado in Boulder (VS) , wier artikel over dit onderwerp verscheen in de "ACL Anthology", een verzameling van meer dan 110.000 artikelen verzameld door de Association for Computational Linguistics (ACL).
Volgens de hoofdauteur van het artikel, Anirudh Maiya, expert op het gebied van computerwetenschappen en machine learning, bestaat het oplossen van Sudoku uit verschillende belangrijke elementen.
"Je moet stap voor stap te werk gaan, de getallenvelden voortdurend opnieuw evalueren en consequent de regels volgen. Puzzels als deze zijn leuk, maar ze bieden ook een ideale microkosmos om het besluitvormingsproces in machine learning te bestuderen", legde de expert uit.
Voor het onderzoek creëerden Maiya en zijn team 2300 sudoku-puzzels van verschillende moeilijkheidsgraden in een raster van 6x6. De onderzoekers wezen ze vervolgens toe aan verschillende grote taalmodellen (LLM's), waaronder o1, Llama-3.1, Gemma-2 en Mistral, om ze op te lossen.
Het experiment toonde aan dat de taak te moeilijk was voor alle AI-modellen : ze slaagden er slechts in om in totaal 0,4% van de puzzels op te lossen. Onderzoekers schrijven dit toe aan het feit dat AI niet logisch nadenkt, maar oplossingen bepaalt op basis van waarschijnlijkheid. Daarom zijn taken gebaseerd op regels en redeneringen moeilijk voor AI.
- Kunstmatige intelligentiemodellen hebben er moeite mee om tegelijkertijd rekening te houden met alle beperkende factoren in een getallenrooster, zo leggen de auteurs van het artikel uit.
Van de LLM-vakken presteerde o1 het beste, met een oplossing van ongeveer 65% van de sudoku-puzzels. Naarmate de moeilijkheidsgraad van de puzzels toenam, daalde zijn slagingspercentage echter ook.
Er ontstonden nog meer problemen toen de onderzoekers de AI vroegen uit te leggen hoe ze tot de oplossing van de puzzel was gekomen. Van alle geteste modellen kon slechts 5% van de tijd de invoer van specifieke getallen correct rechtvaardigen. Vaak waren de antwoorden onjuist of onduidelijk.
- De AI zei bijvoorbeeld: hier kan geen twee staan, want er staat al een twee in deze rij, wat niet waar is, aldus medeauteur van de studie Dr. Ashutosh Trivedi.
Hij voegde eraan toe dat de AI in sommige situaties de getallencombinaties op het bord negeerde of met absurde verklaringen kwam. Zo gaf een van de modellen tijdens een gesprek over sudoku plotseling een weersvoorspelling.
"De AI was volledig in de war en reageerde op een bizarre manier", aldus Dr. Trivedi.
Volgens de auteurs laten de onderzoeksresultaten zien dat kunstmatige intelligentie, ondanks de indrukwekkende prestaties ervan, niet volledig betrouwbaar is, vooral niet bij taken die nauwkeurig redeneren vereisen.
"Veel mensen hebben het erover dat AI-modellen nieuwe vaardigheden ontwikkelen die je niet van ze zou verwachten. Het is echter niet verwonderlijk dat ze in veel taken nog steeds slecht presteren", concludeerde Anirudh Maiya.
well.pl