« Bandersnatch » : quand Black Mirror nous transforme en IA apprenante

L’épisode interactif de Black Mirror nous place dans une situation d’apprentissage propre à l’intelligence artificielle.

Millie Servant

- 4 janvier 2019

#Technologie #Culture

« Bandersnatch » : quand Black Mirror nous transforme en IA apprenante

Avec Bandersnatch, son nouvel épisode « dont chaque spectateur est le héros », la série dystopique made in Netflix Black Mirror ne revisite pas seulement un genre adulé par les enfants des années 1980 et 1990 : elle nous place dans une position d’apprentissage similaire à celle de l’intelligence artificielle. Bienvenue dans la Matrice.

Comme chaque année depuis trois ans, les équipes de Netflix ont décidé d’occuper nos sessions de digestion des repas de fête avec un nouvel épisode de Black Mirror. Sauf que cette année, pas de « Christmas Special » ni de sortie intégrale de saison, mais un épisode d’un genre nouveau, à mi-chemin entre la série interactive et le jeu vidéo.

Pas de bras, pas de cinéma

L’intrigue nous place dans la peau du personnage principal, le jeune programmeur Stefan Butler, qui travaille sur une adaptation du livre Bandersnatch en jeu vidéo pour la société Tuckersoft. Après un tutoriel succint et dès les premières secondes, le spectateur est invité à effectuer des choix au moyen de sa souris et à influencer ainsi le déroulement de l’épisode.

Ce type de narration n’est pas un format isolé côté production audiovisuelle : la preuve avec cette récente série documentairepersonnalisable, ou les histoires interactives conçues pour Alexa ou Google Home. Alors pourquoi s’attarder sur celle-ci plutôt qu’une autre ?

Déjà parce que sa simplicité de format – une petite quarantaine de choix à deux options seulement – permet d’aborder des questions complexes sans rentrer dans un format trop touffu. Mais aussi parce qu’avec cet épisode emblématique de la série Black Mirror, ses créateurs trouvent un nouveau moyen de nous plonger au coeur de leur sujet préféré : le libre arbitre, point central des questions d’intelligences artificielle et de la relation humain-machine.

Arbre de décisions : des feuilles aux racines

Rapidement dans l’épisode, le contenu de l’intrigue et sa forme s’alignent pour se concentrer sur le fonctionnement des arbres de décisions, dans lesquels l’individu – le spectateur et le joueur – doit construire sa progression – dans l’épisode et dans le jeu – par le biais de ses choix d’embranchements successifs dans l’intrigue.

« Les créateurs trouvent un nouveau moyen de nous plonger au coeur de leur sujet préféré : le libre arbitre, point central des questions d’intelligences artificielles »

Le symbole même de l’arbre de décision devient rapidement omniprésent : dessiné, peint ou tracé aux murs, et même présenté comme un choix de réponse. Sur Reddit, plusieurs utilisateurs ont également rappelé le rapprochement avec le logo de l’épisode White Bear (S2E2), insinuant que le personnage serait puni de ses actes en étant bloqué à refaire éternellement les choix de son passé.

Sélectionner, prolonger, itérer, recommencer : sans même s’en apercevoir, le spectateur / utilisateur de Bandersnatch adopte le comportement d’une IA en plein apprentissage. Après tout, l’IA mimant le fonctionnement du raisonnement humain, le lien peut paraître normal. Mais l’exercice du parallèle est édifiant, notamment en faisant le rapprochement avec le fonctionnement d’AlphaGo, le programme qui a battu le champion du monde au jeu de Go.

Plus précisément, nous nous comportons dans ce cas précis de la même manière qu’un certain type d’algorithme appelé MCTS (pour Monte Carlo Tree Search), qui évolue dans les différentes voies de jeu possibles pour choisir la meilleure en passant par trois étapes : sélection, expansion, et « backpropagation ».

Comme dans l’épisode, la métaphore est celle d’un arbre : la racine est la configuration initiale du jeu, et on évolue vers le haut de l’arbre en choisissant des branches successives (phase de sélection), en prolongeant ces branches jusqu’à atteindre la feuille finale (expansion) puis en revenant en arrière pour choisir un nouveau chemin compte tenu des résultats précédents (backpropagation).

« Nous nous comportons de la même manière qu’un certain type d’algorithme appelé MCTS »

Pendant le match contre AlphaGo, cet algorithme a été utilisé pour élaguer les mauvaises branches de l’arbre de décisions et ne choisir que les branches ayant le plus de chance de mener à la victoire. Même principe au cours du visionnage interactif de l’épisode Bandersnatch : lors du premier visionnage, le spectateur va vraisemblablement chercher les options les plus susceptible de le faire avancer dans l’intrigue. On découvre en effet très vite qu’il existe des voies cul-de-sac, notamment si on choisit d’intégrer les locaux de Tuckersoft pour développer le jeu vidéo : Colin répond alors « Sorry mate. Wrong path » (« désolé vieux, mauvais embranchement ») et la branche du scénario se clôt. Il faut alors recommencer à zéro : Stefan dit « I’m trying again » (« j’essaye encore ») et l’épisode redémarre.

A faire et à défaire, on n’est pas à rien faire

On ne recommence d’ailleurs jamais vraiment à zéro : on apprend plutôt de ses erreurs pour aiguiller sa progression dans l’arbre de décision et l’on recommence ainsi systématiquement l’épisode à la lumière de notre expérience. Colin, second rôle de l’épisode, semble lui aussi participer au jeu : quand on redémarre une scène, il a lui aussi appris des erreurs d’embranchement. A l’origine, il n’avait pas lu le livre Bandersnatch, mais si on rejoue la scène, il le connaît, comme s’il l’avait compulsé « entre temps ». Bandersnatch serait-il multi-joueurs ?
Dans le secteur des mathématiques et de l’intelligence artificielle, on parle d’heuristique : c’est l’évaluation de la probabilité pour que le chemin choisi soit meilleur que les autres. L’heuristique se précise donc au fur et à mesure que l’on teste les différentes voies possibles.

Dans l’algorithmique comme dans Bandersnatch, il n’est pas toujours possible de faire machine arrière : une fois engagés dans une voie, il faut aller au bout. Alors seulement, il est possible de tester un chemin différent. Dans Bandersnatch, on réalise d’ailleurs rapidement où sont les embranchements majeurs : le jeu nous y ramène systématiquement en cas d’échec dans une branche.

Dans notre exploration de l’arbre des choix, notre raisonnement est alors guidé par deux objectifs complémentaires pour nous mener vers la réussite : il faut à la fois exploiter toutes les ramifications prometteuses d’une branche et explorer les branches restées inexplorées. En intelligence artificielle, ce compromis entre l’exploitation et exploration est désigné par le terme UCT (Upper Confidence bounds applied to Trees). Il est calculé grâce au nombre de fois qu’une voie a été visitée et au nombre de fois qu’elle a été gagnante.

Contrairement à d’autres méthodes statistiques (comme mini-max ou alpha-beta) qui consistent à évaluer la qualité d’un choix, la méthode Monte Carlo est une simulation, c’est à dire un pari sur la probabilité d’un choix de mener à une victoire. Il ne s’agit pas de faire le meilleur coup possible à un instant T, mais de faire le coup le plus susceptible de mener à terme à la victoire, quitte à ne pas marquer de point à ce tour de jeu.

« Dans l’algorithmique comme dans Bandersnatch, il n’est pas toujours possible de faire machine arrière : une fois engagés dans une voie, il faut aller au bout »

Dans les deux cas, c’est la mémoire de l’expérience qui est cruciale. Comme une IA non entraînée, chaque spectateur de Bandersnatch commence son épisode en novice, et va construire sa cartographie mentale du jeu au fur et à mesure de ses tests et de sa progression. La difficulté principale est alors dans la phase de sélection. Il faut choisir « une branche enfant » et maintenir un compromis entre l’exploitation des choix qui ont l’air prometteurs et l’exploration des choix les moins explorés.

Human versus Machine

Qu’est ce qui distingue alors un spectateur jouant à Bandersnatch d’une IA jouant à Go ? La profondeur du jeu, d’abord. Côté jeu de Go, l’arbre des embranchements possibles est colossal, tandis que côté Black Mirror, les embranchements sont systématiquement binaires (deux choix maximum) et la profondeur du jeu est moindre ce qui limite le nombre de variantes possibles. Cela étant dit, avec les 150 minutes de film divisées en 250 segments et réparties dans cinq grandes branches contenantes elles-mêmes des variantes, le spectateur peut passer plusieurs heures à explorer et tester les déroulements possibles. La preuve : si le chemin le plus rapide est réalisable en 40 minutes seulement, la moyenne de visionnage s’élève plutôt à 90 minutes.

Ce qui nous mène à la seconde différence : le mode de progression. Sans parler de la structure elle-même de la série interactive qui autorise des retours partiels en arrière, la progression de l’humain dans le jeu est particulièrement différente de celle d’une machine. Ainsi, nous ne cherchons pas systématiquement à optimiser nos choix pour finir le jeu : d’autre objectifs entrent en compte, comme l’appétit de découverte, la curiosité portée au contenu des voix mortes, etc. D’ailleurs, la série s’éloigne du fonctionnement d’un jeu en proposant cinq fins dont aucune ne ressemble plus ou moins à une victoire qu’une autre. L’intérêt pour l’humain est dans la découverte et le divertissement.

Le libre arbitre sur la touche ?

La question de la différence humain-machine est centrale dans l’épisode. Plus l’on progresse dans celui-ci et plus la question du “libre arbitre” se fait prégnante. Pour le jeu vidéo construit par Stefan dans l’épisode comme pour le design de l’épisode Bandersnatch par Black Mirror, le chemin du spectateur et du joueur est tracé au préalable, et ce malgré les apparents embranchements de choix qui lui sont présentés.

Car finalement, qu’est ce qui distingue l’intelligence humaine de celle de la machine ? Alpha Go nous prouve que ce n’est ni la capacité de raisonnement ni la logique. L’intuition alors ? Mais qu’est-ce alors que la déduction de la machine au moyen de patterns (motifs et scénario récurrents) et de data (expérience accumulée) ?

Ne reste à l’humain que le libre arbitre. Sauf si nous sommes, nous aussi, des Pacmans coincés dans les couloirs labyrinthiques du réel ? Dans ce cas, rassurons-nous au moins sur un point : les options y sont suffisamment vastes pour qu’on ne puisse jamais s’en rendre compte.

SUR LE MÊME SUJET :

> Black Mirror : « La SF cauchemarde le monde parce qu’elle sait que le bonheur est possible »

> Un docu raconte le duel entre Google et le Federer du jeu de go

> L’intelligence artificielle de Google apprend le jeu de go sans « données humaines »