Des IA meilleures que les humains lors d’un test de lecture

Les intelligences artificielles d’Alibaba et Microsoft ont toutes deux battu les scores humains dans le test de lecture de l’Université de Stanford.
Des IA meilleures que les humains lors d'un test de lecture

Défié par de nombreux concepteurs d’intelligences artificielles, le test de lecture de l’Université de Stanford n’avait encore jamais vu de machines battre les scores humains. C’est désormais chose faite, Alibaba et Microsoft annonçant successivement début janvier avoir dépassé avec leurs IA respectives les facultés de lectures des êtres humains.

« Cette technologie va pouvoir être progressivement appliquée dans de nombreux domaines, comme le service client ou les réponses en ligne à des demandes médicales de patients, diminuant le besoin d’interventions humaines de façon inédite.  » La prédiction pleine d’enthousiasme vient de Luo Si, responsable scientifique du développement du langage naturel au sein de l’Institute of Data Science of Technologies d’Alibaba. Dans un communiqué relayé le 15 janvier par Bloomberg, le géant chinois du commerce en ligne revendique avoir mis au point la première intelligence artificielle capable de mieux lire des textes que l’être humain. Peu après, une IA de Microsoft a aussi dépassé les facultés de lecture humaines.

De Genghis Khan au système immunitaire

Plus précisément, Alibaba et Microsoft ont soumis leurs IA à un test de lecture développé par l’Université de Stanford. Le SQuAD (Stanford question answering dataset) évalue les capacités de lecture et de compréhension d’une machine en la soumettant à un jeu de plus de 500 articles Wikipédia puis à plus de 100 000 questions dont les réponses sont contenus dans les articles.

(cc) Daniel Avelino / Flickr

Les articles concernent des sujets aussi variés que « Genghis Khan », « Le 50e Super Bowl » ou « le système immunitaire ». À la question « qui était le chef scandinave ? », les IA doivent par exemple répondre « Rollo » après avoir lu un article sur les Normands. En mesurant le pourcentage de bonnes réponses, l’IA d’Alibaba a obtenu un score de 82,440 %, et celle de Microsoft 82,650 %, soit légèrement plus que les performances humaines établies à 82,304 % dans le classement SQuAD. Et bien davantage que certains de leurs concurrents directs dans la cours à l’IA, qui tentent leur chance et apparaissent également dans le classement. Facebook a par exemple obtenu en décembre 2017 le score de 77,237 %.

« Les machines peuvent maintenant répondre avec une grande précision à des questions objectives comme “qu’est-ce qui cause la pluie ?” »

« Cela signifie que les machines peuvent maintenant répondre avec une grande précision à des questions objectives comme “qu’est-ce qui cause la pluie ?” », estime Luo Si, qui savoure comme « un grand honneur » d’avoir battu sur le fil ses concurrents pour franchir ce seuil symbolique. Une victoire qui doit sans doute moins à l’honneur qu’aux 15 milliards de dollars dépensés par Alibaba. L’entreprise a annoncé en octobre 2017 qu’elle comptait investir cette somme dans les trois ans à venir pour développer de nouvelles technologies, comme l’IA, l’ordinateur quantique et l’Internet des objets.

Les humains meilleurs dans l’approximation

Les lecteurs humains conservent toutefois une légère avance sur les machines, si on lit les résultats de Stanford un peu différemment. À côté du pourcentage indiquant les réponses strictement correctes, on trouve une autre colonne de résultats appelés « F1 ». Il s’agit d’un outil « moins stricte qui mesure le niveau moyen de recoupement  » entre les réponses attendues et celles effectivement données par les machines ou les humains, explique dans un post de blog Pranav Rajpurkar, doctorant en machine learning à Stanford ayant participé à l’élaboration de SQuAD.

© Vasilyev Alexandr / Shutterstock

Sous le prisme F1, l’IA d’Alibaba atteint un score de 88,607 % et celle de Microsoft de 88,493 %, tandis que la performance humaine trône à 91,221 %. Rien n’indique que cette barrière là ne finisse pas aussi par céder. Mais pour l’instant nous sommes encore de meilleurs lecteurs approximatifs que les machines.

 

SUR LE MÊME SUJET : 

Guide de conversation avec les machines de demain

Dédé, VoxeBot ou Jeannot, les chatbots pour vous aider à voter

À Futur en Seine, Jean-Gabriel Ganascia dézingue la Singularité

« On peut être contre l’intelligence artificielle par principe »

L’intelligence artificielle a envahi Google, et ce n’est que le début

 

Image à la une : © Vasilyev Alexandr / Shutterstock

et aussi, tout frais...