Cet article vous est offert
Pour lire gratuitement cet article réservé aux abonnés, connectez-vous
Vous n'êtes pas inscrit sur Le Monde ?

Intelligence artificielle : toujours plus puissant, AlphaGo apprend désormais sans données humaines

La nouvelle version du programme de Google DeepMind, qui avait battu les meilleurs professionnels du jeu de go, se montre beaucoup plus puissante que son prédécesseur.

Par 

Publié le 18 octobre 2017 à 19h10, modifié le 19 octobre 2017 à 09h41

Temps de Lecture 5 min.

En mars 2016, la machine battait l’homme au jeu de go.

Encore un nouvel exploit pour AlphaGo. Après être devenu en 2016 le premier programme informatique capable de battre l’humain au go, en écrasant les meilleurs joueurs du monde, le logiciel de Google DeepMind a encore gagné en compétences. Dans un article publié mercredi 18 octobre par la prestigieuse revue scientifique Nature, les créateurs d’AlphaGo annoncent avoir mis au point une version considérablement plus puissante de leur programme, et surtout, qui est capable d’apprendre à jouer « sans rien savoir du jeu de go », expliquent-ils sur leur blog.

Si, pour fonctionner, AlphaGo apprenait en se basant notamment sur des millions d’exemples de parties jouées par des humains, AlphaGo Zero – le nom de la nouvelle version – n’a besoin, lui, d’aucun exemple. Les seules informations dont dispose le programme, basé sur un réseau de neurones artificiels, sont les règles du jeu et la position des pierres noires et blanches sur le plateau. A partir de là, pour apprendre, le programme va jouer des millions de parties contre lui-même. Avec des coups aléatoires dans un premier temps, avant d’affiner, jeu après jeu, sa stratégie.

Et le résultat est sans appel : après trois jours d’entraînement seulement, ce programme a battu 100 à 0 AlphaGo Lee, la version du programme qui avait, en mars 2016, réussi la prouesse historique de battre 4-1 le Sud-Coréen Lee Sedol, alors considéré comme le meilleur joueur au monde. AlphaGo Lee avait pourtant nécessité des mois d’entraînement et 30 millions de parties. AlphaGo Zero n’aura eu besoin « que » de 4,9 millions de parties jouées contre lui-même pour écraser AlphaGo Lee.

Pour battre AlphaGo Master, une version plus puissante d’AlphaGo, qui avait notamment terrassé en mai 2017 le numéro 1 mondial Ke Jie, 40 jours d’entraînement ont été nécessaires. Qui plus est, AlphaGo Zero nécessite bien moins de ressources informatiques pour fonctionner que ses prédécesseurs.

Lire nos explications : Article réservé à nos abonnés La révolution des neurones artificiels

Une méthode limitée à certains domaines

En mars, le Sud-Coréen Lee Sedol, alors considéré comme le meilleur joueur au monde, a été vaincu par AlphaGo.

« Cette technique est plus puissante que les précédentes versions d’AlphaGo car elle n’est plus contrainte par les limites de la connaissance humaine, expliquent les chercheurs. A la place, elle est capable d’apprendre à partir de zéro avec le meilleur joueur du monde : AlphaGo lui-même. »

Cette méthode d’apprentissage « par renforcement », mêlée à d’autres optimisations techniques de DeepMind, se montre donc plus efficace que la précédente, qui combinait de l’apprentissage « supervisé » (basé sur des parties jouées par des humains) et de l’apprentissage par renforcement.

« C’est vraiment impressionnant », estime Tristan Cazenave, professeur à l’université Paris-Dauphine, spécialiste de la programmation des jeux au laboratoire Lamsade. « C’est étonnant qu’il réussisse à aussi bien apprendre à partir de ces entrées minimales. C’est une très bonne nouvelle pour l’intelligence artificielle : on va pouvoir l’appliquer à plein de problèmes différents, car c’est une méthode très générale et très puissante. »

Les chercheurs de DeepMind évoquent la possibilité que celle-ci puisse servir dans des domaines aussi divers que la réduction de consommation d’énergie, la conception de nouveaux matériaux ou encore le repliement des protéines.

« Des coups que l’homme a mis des milliers d’années à trouver »

Toutefois, la méthode conçue par DeepMind ne peut pas s’appliquer à tous les problèmes auxquels se confronte l’intelligence artificielle, bien loin de pouvoir se passer de données humaines dans un nombre de cas considérables.

Le Monde
Offre spéciale étudiants et enseignants
Accédez à tous nos contenus en illimité à partir de 9,99 €/mois au lieu de 11,99 €.
S’abonner

« Pour appliquer cette méthode, il faut que le cadre soit très défini, qu’on ait une représentation solide du domaine, pas trop de flou dans les règles, et que le problème soit bien défini. Cela s’applique bien au jeu car il y a une connaissance parfaite de l’environnement, des règles, et qu’il y a peu d’imprévu », explique Tristan Cazenave. Le go s’y prête donc parfaitement.

« La beauté de la chose est qu’AlphaGo Zero découvre de nouvelles connaissances du go. Il a retrouvé seul des séquences classiques que tout le monde connaît, mais que les humains ont mis des milliers d’années à trouver. Lui, ça lui a pris trois jours. Et il trouve des choses originales et pertinentes qu’on n’avait jamais découvertes. »

De quoi donner encore de la matière à réflexion pour les professionnels du go, qui décortiquent avec intérêt les parties effectuées par les différentes versions d’AlphaGo.

Certains coups joués par le programme, qui avaient désarçonné Lee Sedol ou Ke Jie, continuent d’intriguer les amateurs de ce jeu extrêmement complexe, inventé en Chine il y a environ 3 000 ans. Dans les compétitions de haut niveau, les coups joués s’inspirent de plus en plus de ceux d’AlphaGo – alors même que la logique d’une partie d’entre eux échappe toujours aux joueurs.

« DeepMind a une équipe de rêve »

Du côté des chercheurs en intelligence artificielle spécialisés dans le jeu de go, comme Tristan Cazenave, qui travaille depuis des années sur ce sujet, l’excitation l’emporte sur le découragement.

« C’est très motivant, au contraire ! Ils ont trouvé une solution élégante à un problème difficile. On a envie de refaire le même programme, de l’étudier, de l’appliquer à autre chose… » Et de saluer la performance de DeepMind, qui a accompli en quelques mois seulement d’importants progrès : « Ils ont travaillé dans un temps record, ils ont été originaux et créatifs… Ils ont une équipe de rêve, à la pointe et très motivée. »

Demis Hassabis est le cofondateur de DeepMind.

Sise à Londres, DeepMind, entreprise spécialisée dans l’intelligence artificielle, a été rachetée en 2014 par Google, quatre ans après sa création. Sa victoire historique dans le jeu de go lui a donné une immense visibilité, mais l’entreprise travaille sur d’autres questions, notamment dans le domaine de la santé.

Elle a par exemple signé plusieurs partenariats avec les hôpitaux londoniens, pour faciliter la cartographie de la zone à traiter dans le cancer de la tête et du cou, ou pour créer une application censée aider le personnel hospitalier à détecter le plus possible les cas d’insuffisance rénale aiguë. Ce dernier partenariat lui a d’ailleurs valu un certain nombre de critiques, après le transfert des données de 1,6 million de patients, sans que ceux-ci en aient été suffisamment informés.

Si DeepMind a annoncé en mai qu’AlphaGo ne participerait plus aux compétitions, ses ambitions dans le domaine du jeu ne s’arrêtent pas là : l’entreprise se concentre désormais sur le jeu vidéo Starcraft 2, qui impose de nouveaux défis au monde de l’intelligence artificielle.

L’espace des contributions est réservé aux abonnés.
Abonnez-vous pour accéder à cet espace d’échange et contribuer à la discussion.
S’abonner

Voir les contributions

Réutiliser ce contenu

Lecture du Monde en cours sur un autre appareil.

Vous pouvez lire Le Monde sur un seul appareil à la fois

Ce message s’affichera sur l’autre appareil.

  • Parce qu’une autre personne (ou vous) est en train de lire Le Monde avec ce compte sur un autre appareil.

    Vous ne pouvez lire Le Monde que sur un seul appareil à la fois (ordinateur, téléphone ou tablette).

  • Comment ne plus voir ce message ?

    En cliquant sur «  » et en vous assurant que vous êtes la seule personne à consulter Le Monde avec ce compte.

  • Que se passera-t-il si vous continuez à lire ici ?

    Ce message s’affichera sur l’autre appareil. Ce dernier restera connecté avec ce compte.

  • Y a-t-il d’autres limites ?

    Non. Vous pouvez vous connecter avec votre compte sur autant d’appareils que vous le souhaitez, mais en les utilisant à des moments différents.

  • Vous ignorez qui est l’autre personne ?

    Nous vous conseillons de modifier votre mot de passe.

Lecture restreinte

Votre abonnement n’autorise pas la lecture de cet article

Pour plus d’informations, merci de contacter notre service commercial.