Les machines à langage dans la science-fiction
Essai de linguistique computationelle de Frédéric Landragin.
F. Landragin nous avait déjà défriché la théorie de la communication avec les extraterrestres. Ici l’auteur se retrouve au plus près de son activité professionnelle (qui n’est donc étrangement pas la communication avec les Ewoks …) : faire parler des machines. Dans la science-fiction, quelque soit le média, il est de très nombreux exemples de machines (souvent des robots) parlantes, entre l’obséquiosité irritante de Z-6PO (alias C-3PO) et le laconisme brutal de Terminator. Mais comment ces robots ont-ils appris à communiquer ? Peuvent les robots que nous produisons aujourd’hui atteindre le niveau que les auteurs de SF proposent ?
Avant les cinq chapitres de ce livre, l’auteur veut clarifier ce qui distingue l’Intelligence Artificielle (IA) du Traitement Automatique des Langues (TAL). Le TAL est tout simplement une partie de l’IA (elle-même des quantités de règles sur une base probabiliste, avec plusieurs manières d’y arriver p. 29-30), c’est la rencontre de la linguistique et de l’informatique.
Le premier chapitre veut faire comprendre au lecteur ce qu’est une intelligence artificielle parlante. Avant tout, il faut s’entendre sur ce qu’est l’intelligence, dont l’acception est très liée à la capacité langagière. Après, il faut pouvoir l’évaluer. Les tests de Turing et de Winograd viennent ici remplacer les tests de QI et de QE (p. 55). Et on voit dans la comparaison entre Skynet (l’IA de Terminator) et DART (l’outil de gestion logistique de l’Armée de Terre étatsunienne, qui a quelques besoins de ce côté-là avec des centaines de bases de par le monde) que la réalité est loin de la SF (p.56). AlphaGo bat des humains au jeu de go (après avoir perfectionné son jeu grâce à des milliers de parties) mais est incapable de planifier un itinéraire. Dans la réalité, l’ultra spécialisation règne.
Le TAL s’appuie sur la linguistique, le thème du second chapitre. Après quelques définitions et quelques évocations de querelles historiographiques, F. Landragin passe en revue les différents aspects ou axes d’approche : lexical, syntaxique, sémantique, détection des entités nommées (les noms propres) et ce qui est au-delà de la phrase. A chaque fois, des exemples très pédagogiques, généraux et tirés de la SF, illustrent ces concepts. La répétition et la question de la mémoire (à quoi se rapportent les pronoms et les articles ?) dans le texte sont en effet des phénomènes très compliqués à rendre au niveau informatique (en indexation par exemple).
Dans le chapitre suivant, on sort de l’écrit pour aborder la reconnaissance vocale, la question des émotions, de la cognition, des inférences (comment gérer l’expression d’une sous-conséquence, p. 142, c’est-à-dire quand dans une conversation une ou plusieurs étapes logiques sont sautées) et la question de l’omniscience des machines (qui n’ont pas d’esprit critique p. 147, puisque si c’est dans la base de donnée c’est forcément vrai). Puis dans le quatrième chapitre, il est question du traducteur universel, un artefact assez présent dans la SF. Dans le traducteur universel (non-organique), c’est bien sûr de la linguistique mais aussi de la statistique que l’on utilise. Là encore, la réalité est loin de la fiction et l’auteur liste ce que les possibilités actuelles permettent et ne permettent pas. Il est évident que la traduction automatique de La disparition de G. Perec est très très loin des capacités contemporaines (p. 169).
Dans le dernier chapitre, F. Landragin aborde le dialogue humains-machines, en commençant par les différents modes de communication (texte, voix, indications, etc.). Les machines sont très parlantes dans la SF mais tous les problèmes théoriques n’ont pas été utilisés dans les scénarios, selon l’auteur (il n’y aurait aucun scénario prenant pour argument principal un problème de contextualisation p. 200). La conclusion se veut prospective, avec comment des robots peuvent apprendre une langue naturelle. Les notes, la bibliographie et un index des notions complètent ce livre avec grand intérêt.
Comme nous avions déjà pu le voir quand l’auteur s’intéressait à la communication avec les aliens, F. Landragin a un bagage très sérieux en ce qui concerne la SF, quel que soit le média (et L. Besson n’est pas en odeur de sainteté p. 49). Malgré certains aspects techniques pointus, l’auteur essaie toujours d’être pédagogue et réussi à l’être. La page 159, qui vise à expliquer une difficulté rencontrée par la machine, est exemplaire de ce point de vue : les mots « petite », « brise » et « glace » sont-ils des noms, des verbes ou des adjectifs ? Comment traduire dans ce cas « la petite brise la glace » ? Une petite fille qui sur un lac veut atteindre l’eau ou un vent qui la refroidit ? C’est en arrière-plan la question du « bon sens » et comment on peut l’enseigner à une machine, c’est-à-dire comment faire intégrer la culture, la cosmogonie, sur laquelle est appuyée la langue. C’est déjà très compliqué avec les humains …
Ce livre permet aussi de mieux comprendre comment fonctionnent les traducteurs aujourd’hui accessibles sur internet et quel est l’origine de leur corpus d’apprentissage (les traductions juridiques multilingues et normées de l’Union Européenne par exemple, p. 80). Les questions de l’indexation et du résumé sont aussi facilement appréhendables par le lecteur qui utilise des résultats de ces processus chaque jour quand il est sur internet.
Un très bon livre, pour s’y retrouver entre le petit robot Nao, la voix du film Her et les assistants domestiques.
(ne surtout pas confier l’éducation d’un chatbot à des internautes … 8)