Comment parle un robot ?

Les machines à langage dans la science-fiction
Essai de linguistique computationelle de Frédéric Landragin.

Certains sont même bavards !

F. Landragin nous avait déjà défriché la théorie de la communication avec les extraterrestres. Ici l’auteur se retrouve au plus près de son activité professionnelle (qui n’est donc étrangement pas la communication avec les Ewoks …) : faire parler des machines. Dans la science-fiction, quelque soit le média, il est de très nombreux exemples de machines (souvent des robots) parlantes, entre l’obséquiosité irritante de Z-6PO (alias C-3PO) et le laconisme brutal de Terminator. Mais comment ces robots ont-ils appris à communiquer ? Peuvent les robots que nous produisons aujourd’hui atteindre le niveau que les auteurs de SF proposent ?

Avant les cinq chapitres de ce livre, l’auteur veut clarifier ce qui distingue l’Intelligence Artificielle (IA) du Traitement Automatique des Langues (TAL). Le TAL est tout simplement une partie de l’IA (elle-même des quantités de règles sur une base probabiliste, avec plusieurs manières d’y arriver p. 29-30), c’est la rencontre de la linguistique et de l’informatique.

Le premier chapitre veut faire comprendre au lecteur ce qu’est une intelligence artificielle parlante. Avant tout, il faut s’entendre sur ce qu’est l’intelligence, dont l’acception est très liée à la capacité langagière. Après, il faut pouvoir l’évaluer. Les tests de Turing et de Winograd viennent ici remplacer les tests de QI et de QE (p. 55). Et on voit dans la comparaison entre Skynet (l’IA de Terminator) et DART (l’outil de gestion logistique de l’Armée de Terre étatsunienne, qui a quelques besoins de ce côté-là avec des centaines de bases de par le monde) que la réalité est loin de la SF (p.56). AlphaGo bat des humains au jeu de go (après avoir perfectionné son jeu grâce à des milliers de parties) mais est incapable de planifier un itinéraire. Dans la réalité, l’ultra spécialisation règne.

Le TAL s’appuie sur la linguistique, le thème du second chapitre. Après quelques définitions et quelques évocations de querelles historiographiques, F. Landragin passe en revue les différents aspects ou axes d’approche : lexical, syntaxique, sémantique, détection des entités nommées (les noms propres) et ce qui est au-delà de la phrase. A chaque fois, des exemples très pédagogiques, généraux et tirés de la SF, illustrent ces concepts. La répétition et la question de la mémoire (à quoi se rapportent les pronoms et les articles ?) dans le texte sont en effet des phénomènes très compliqués à rendre au niveau informatique (en indexation par exemple).

Dans le chapitre suivant, on sort de l’écrit pour aborder la reconnaissance vocale, la question des émotions, de la cognition, des inférences (comment gérer l’expression d’une sous-conséquence, p. 142, c’est-à-dire quand dans une conversation une ou plusieurs étapes logiques sont sautées) et la question de l’omniscience des machines (qui n’ont pas d’esprit critique p. 147, puisque si c’est dans la base de donnée c’est forcément vrai). Puis dans le quatrième chapitre, il est question du traducteur universel, un artefact assez présent dans la SF. Dans le traducteur universel (non-organique), c’est bien sûr de la linguistique mais aussi de la statistique que l’on utilise. Là encore, la réalité est loin de la fiction et l’auteur liste ce que les possibilités actuelles permettent et ne permettent pas. Il est évident que la traduction automatique de La disparition de G. Perec est très très loin des capacités contemporaines (p. 169).

Dans le dernier chapitre, F. Landragin aborde le dialogue humains-machines, en commençant par les différents modes de communication (texte, voix, indications, etc.). Les machines sont très parlantes dans la SF mais tous les problèmes théoriques n’ont pas été utilisés dans les scénarios, selon l’auteur (il n’y aurait aucun scénario prenant pour argument principal un problème de contextualisation p. 200). La conclusion se veut prospective, avec comment des robots peuvent apprendre une langue naturelle. Les notes, la bibliographie et un index des notions complètent ce livre avec grand intérêt.

Comme nous avions déjà pu le voir quand l’auteur s’intéressait à la communication avec les aliens, F. Landragin a un bagage très sérieux en ce qui concerne la SF, quel que soit le média (et L. Besson n’est pas en odeur de sainteté p. 49). Malgré certains aspects techniques pointus, l’auteur essaie toujours d’être pédagogue et réussi à l’être. La page 159, qui vise à expliquer une difficulté rencontrée par la machine, est exemplaire de ce point de vue : les mots « petite », « brise » et « glace » sont-ils des noms, des verbes ou des adjectifs ? Comment traduire dans ce cas « la petite brise la glace » ? Une petite fille qui sur un lac veut atteindre l’eau ou un vent qui la refroidit ? C’est en arrière-plan la question du « bon sens » et comment on peut l’enseigner à une machine, c’est-à-dire comment faire intégrer la culture, la cosmogonie, sur laquelle est appuyée la langue. C’est déjà très compliqué avec les humains …

Ce livre permet aussi de mieux comprendre comment fonctionnent les traducteurs aujourd’hui accessibles sur internet et quel est l’origine de leur corpus d’apprentissage (les traductions juridiques multilingues et normées de l’Union Européenne par exemple, p. 80). Les questions de l’indexation et du résumé sont aussi facilement appréhendables par le lecteur qui utilise des résultats de ces processus chaque jour quand il est sur internet.

Un très bon livre, pour s’y retrouver entre le petit robot Nao, la voix du film Her et les assistants domestiques.

(ne surtout pas confier l’éducation d’un chatbot à des internautes … 8)

Cookie monster

Roman de science-fiction de Vernor Vinge.

Ne pas mettre le doigt dans l’engrenage !

Dixie Mae a démarré il y a six jours au service clientèle de LotsaTech, la nouvelle très grosse boîte de la Silicon Valley. C’est même son premier jour au contact de la clientèle. Elle espère que ce sera le début d’une période plus stable dans une vie professionnelle pour l’instant assez chaotique. Tout se passe plutôt bien dans son box, entourée de ses collègues, quand elle reçoit un courriel qui ne peut être qu’une très mauvaise blague. Et les détails intimes qu’il contient mettent Dixie Mae hors d’elle. Qui a pu oser ? Un de ses collègues ? Aucun ne peut savoir cela. Quelqu’un d’autre sur ce campus ? Tant pis si la pause déjeuner y passe, le plaisantin va prendre cher.

Roman de moins de 100 pages, il mérite son qualificatif de court (« roman court » est le descriptif de l’éditeur et la catégorie dans laquelle il a gagné deux prix prestigieux, mais c’est une nouvelle en fait). Mais il ne faut pas prendre cette caractéristique comme un synonyme d’inabouti ou de bâclé. Le roman, malgré ou à cause de son côté hard-science très prononcé (l’auteur a enseigné l’informatique à l’université), n’a aucune peine à mettre le lecteur au cœur de l’action et des préoccupations des personnages. L’auteur parvient ainsi sans effort à faire réfléchir le lecteur aux conséquences de ce qu’apprennent les personnages, dans un monde qui diffère très peu du notre (sauf peut-être le choc de l’Empire State Building à Los Angeles p. 65 ?). Il y a au moins deux références au Magicien d’Oz (p. 43 et 62), sans que nous en ayons vraiment compris le sens, s’il y en a un. L’auteur se cite aussi p. 56, parmi d’autres auteurs étatsuniens de science-fiction qui semblent avoir un rapport avec l’histoire. Mais le but ne semble pas d’être clair dans ce passage … Ça l’est un peu plus mais pas totalement avec un autre auteur accompagné d’une citation p. 62. Mais aller plus loin serait dévoiler bien trop de l’histoire …

Un bon moment de lecture, avec un moment délicieux de bascule où héroïne et lecteur perdent pied. Très glaçant, aussi …

(un rêve de professeur, faire travailler des gens à la correction de copies p. 67 … 8,5)