Au-delà du battage publicitaire et de la haine, cet article se concentre sur la façon dont l'intelligence artificielle (IA) - en fait Apprentissage approfondi - L'opérationnalisation exige de développer une manière différente de considérer l'IA. La compréhension qui en résulte permet de mettre en évidence l'importance du capteur et de l'actionneur, la double interface entre l'IA et son environnement. Cette interface est un moteur potentiellement perturbateur pour l'IA.

Capteur et actionneur, les éléments oubliés

Le capteur et l'actionneur sont essentiels au développement de l'IA à tous les niveaux, y compris en termes d'applications pratiques. Pourtant, lorsque l'on aborde l'expansion et l'avenir de l'IA, ces deux éléments sont la plupart du temps négligés. C'est notamment à cause de ce manque d'attention que l'interface peut devenir perturbatrice. En effet, une approche par capteur et actionneur pour l'IA pourrait-elle être la clé du boom très généralisé que tant de gens recherchent ? En attendant, de nombreux sous-domaines de l'IA pourraient également bénéficier de ce développement. Par ailleurs, l'échec de l'intégration complète de cette approche pourrait entraîner des obstacles inutiles, notamment une panne temporaire.

Capteur et actionneur, un autre enjeu dans la course à l'IA

En outre, nous voyons apparaître dans le monde trois dynamiques liées à l'IA en interaction. La naissance et la diffusion de l'IA pour les Etats et la gestion de l'IA pour les acteurs privés interagissent et alimentent une course internationale pour la puissance de l'IA, c'est-à-dire la manière dont on se classe dans la répartition relative du pouvoir au niveau mondial. En conséquence, l'IA influence de plus en plus cette même répartition du pouvoir ( voir Le nouveau monde de l'AI en devenir). Ainsi, les moteurs de l'IA ne sont pas seulement des forces derrière l'expansion de l'IA, mais aussi des enjeux dans la compétition de l'IA. La manière dont les acteurs publics et privés gèrent cette compétition, la dynamique qui en résulte et les défaites et victoires qu'elle entraîne façonnent également le nouveau monde de l'IA en devenir.

Ainsi, si les capteurs et les actionneurs sont essentiels à une large opérationnalisation de l'IA, alors la capacité à développer au mieux la gouvernance et la gestion de l'IA, ainsi que la position dans la course internationale à la puissance de l'IA, pourrait très bien dépendre de la maîtrise de ces capteurs et actionneurs.

Liens connexes

Intelligence artificielle - Forces, moteurs et enjeux

Les moteurs de l'IA : 

Aperçu

Cet article utilise deux études de cas pour expliquer progressivement ce que sont un capteur et un actionneur. Il détaille ainsi la double interface entre l'agent IA et son environnement. En conséquence et en troisième lieu, nous soulignons que l'on comprend mieux l'IA comme une séquence. Cette compréhension nous permet d'envisager tout un monde futur d'activités économiques. Ce monde n'est cependant pas sans danger et nous soulignons qu'il exigera un nouveau type de sécurité. Enfin, nous soulignerons la nécessité de distinguer les types de réalité que la séquence d'IA relie.

Le prochain article portera sur les différentes façons de gérer la séquence d'IA et son interface jumelle, notamment l'actionneur. Nous nous intéresserons plus particulièrement à l'Internet des objets (IoT), aux êtres humains eux-mêmes et aux systèmes autonomes, mieux connus sous le nom de robots. En attendant, nous explorerons plus avant les nouvelles activités créées par l'IA.

Un regard différent sur le match contre AlphaGo

Nous allons examiner à nouveau (Google) DeepMind's AlphaGoL'agent d'apprentissage supervisé qui joue au Go et dont la victoire a lancé la phase actuelle de développement de l'IA.

Reproduire le match contre AlphaGo

Imaginons maintenant qu'un nouveau match se déroule entre M. Fan Hui, le champion d'Europe de go AlphaGo battu par 5-0 en octobre 2015 et l'agent AI (AlphaGo page web). M. Fan Hui, comme cela s'est produit dans la réalité, joue en premier contre l'agent IA AlphaGo. Devant lui, on peut voir un goban (le nom du plateau pour le go). AlphaGo est connecté au nuage pour accéder à la puissance de calcul distribuée, car il a besoin de beaucoup de puissance de calcul.

M. Fan Hui commence et fait son premier pas en plaçant une pierre blanche sur le Goban. Puis c'est le tour d'AlphaGo. Comment l'agent AI va-t-il répondre ? Fera-t-il un mouvement typique ou quelque chose d'original ? À quelle vitesse va-t-il ensuite jouer ? Le suspens est immense, et...

Il ne se passe rien.

Qu'est-ce qui a mal tourné ?

La (bonne) façon dont DeepMind l'a fait

Si vous regardez attentivement la vidéo ci-dessous montrant le jeu original, vous remarquerez qu'en fait, le cadre n'est pas exactement celui que j'ai décrit ci-dessus. Quelques autres éléments cruciaux sont présents. Si DeepMind avait mis un humain et un agent IA face à face dans le cadre que je viens de décrire, leur expérience aurait mal tourné. Au lieu de cela, grâce aux éléments qu'ils ont ajoutés, leur jeu a été un succès.

Vous pouvez observer ces trois éléments à 1:19 de la vidéo, comme le montre la capture d'écran annotée ci-dessous :

  • A : un acteur humain
  • B : un écran
  • C : un être humain avec un appareil bizarre sur une table.
Capture d'écran de la vidéo Google DeepMind : AlphaGo maîtrise le jeu de Go - 1:19

Capteur

Dans notre cadre imaginaire, je n'ai pas créé d'interface pour dire à l'agent AI que M. Hui avait déplacé une pierre, et laquelle. Ainsi, en ce qui concerne l'agent AI, il n'y a pas eu d'entrée.

Dans le cadre réel de DeepMind, nous avons l'agent humain (C). Nous pouvons supposer que le dispositif bizarre sur la table devant elle lui permet d'entrer dans l'ordinateur pour l'agent IA les mouvements que M. Fan Hui effectue tout au long de la partie.

Plus généralement, une première interface d'entrée doit exister entre le monde réel et l'agent IA pour le voir fonctionner. Nous avons donc besoin de capteurs. Ils détecteront le monde réel pour l'IA. Nous devons également communiquer à l'agent AI les données capturées par les capteurs, de manière à ce que l'AI les comprenne.

Supposons maintenant que nous ajoutions l'agent C et son dispositif - c'est-à-dire le système de capteurs - à notre réglage.

Là encore, rien ne se passe.

Pourquoi ? L'agent AI procède et décide de son déplacement. Cependant, le résultat algorithmique reste dans l'ordinateur, comme une sortie de machine quelle que soit sa forme. En effet, il n'y a pas d'interface pour agir dans le monde réel. Ce qu'il faut, c'est un actionneur.

Actionneur

L'interface avec le monde extérieur doit non seulement produire un résultat que notre maître de go peut comprendre pour chaque coup, mais aussi un résultat qui aura un sens, pour lui, pendant toute la partie.

Il ne suffirait pas d'obtenir la position d'une pierre en fonction des coordonnées sur le plateau. Ce type de résultat exigerait d'abord que M. Fan Hui dispose d'une bonne capacité de visualisation et de cartographie pour traduire ces coordonnées sur le goban. Il faudrait ensuite que notre champion de go ait une très bonne mémoire. En effet, après quelques coups, être capable de visualiser et de se souvenir de l'ensemble du jeu serait un défi.

DeepMind a en fait utilisé les actionneurs nécessaires pour rendre possible le jeu entre l'homme et l'IA.

Au point (B), nous avons un écran qui affiche l'ensemble du jeu. L'écran montre aussi très probablement le coup de l'agent IA à chaque fois que ce dernier joue. Ensuite, en (A), nous avons un agent humain, qui traduit le jeu virtuel à l'écran en réalité sur le goban. Pour ce faire, il copie le coup de l'agent AI tel qu'il est affiché à l'écran en plaçant la pierre correspondante sur le plateau.

Il est important de noter la présence de cet être humain (A), même si elle n'était probablement pas vraiment nécessaire pour M. Fan Hui, qui aurait pu jouer devant l'écran. Tout d'abord, il s'agit d'un dispositif de communication pour rendre toute l'expérience plus compréhensible et intéressante pour le public. Ensuite, il est peut-être plus facile pour M. Fan Hui de jouer sur un vrai goban. La traduction d'un monde virtuel à un monde réel est cruciale. Il s'agira probablement d'un enjeu majeur dans ce qui permettra réellement à l'IA d'émerger et de se développer.

Comme nous l'avons illustré ci-dessus, le fait de préciser le processus d'interaction avec un agent IA souligne l'importance des interfaces doubles.

C'est en fait ainsi que DeepMind a conçu l'une de ses dernières réalisations en matière d'IA, sur laquelle nous allons maintenant nous pencher.

Vers une vision de l'être humain

En juin 2018, DeepMind a expliqué comment il avait construit un agent d'IA qui peut percevoir son environnement comme le font les êtres humains (en libre accèsS. M. Ali Eslami et autres, "Représentation et rendu des scènes neurales“, Science  15 juin 2018 : Vol. 360, numéro 6394, p. 1204-1210, DOI : 10.1126/science.aar6170).

"Par exemple, lorsque vous entrez dans une pièce pour la première fois, vous reconnaissez instantanément les objets qu'elle contient et leur emplacement. Si vous voyez trois pieds d'une table, vous en déduirez qu'il y en a probablement un quatrième de même forme et de même couleur qui est caché à la vue. Même si vous ne pouvez pas tout voir dans la pièce, vous pourrez probablement en esquisser la disposition ou imaginer à quoi elle ressemble sous un autre angle". (“Représentation et rendu des scènes neurales", site internet DeepMind). 

L'objectif des scientifiques était de créer un agent d'IA ayant les mêmes capacités que celles des êtres humains, ce qu'ils ont réussi à faire :

DeepMind utilise "capteur et actionneur".

Le plus intéressant pour notre propos est que ce que nous avons décrit dans la première partie est exactement la façon dont les scientifiques ont construit leur processus et résolu le problème de la vision d'un agent IA.

Ils ont appris à leur agent AI à prendre des images du monde extérieur (dans ce cas encore un monde virtuel) - ce que nous appelions le système de capteurs - puis à les convertir, grâce à un premier algorithme d'apprentissage profond - le réseau de représentation - en un résultat, une sortie - la représentation de la scène. À ce stade, le résultat est significatif pour l'agent AI, mais pas pour nous. La dernière étape représente ce que nous avons appelé l'actionneur. Il s'agit de la conversion d'une sortie significative pour l'IA en quelque chose de significatif pour nous, la "prédiction". Pour cela, DeepMind a développé un "réseau de génération", appelé "rendu neural". En effet, en termes d'infographie 3D, le rendu est le processus qui transforme le calcul en une image, le rendu.

La capture d'écran ci-dessous montre le processus à l'œuvre (j'ai ajouté les cercles et les flèches rouges à la capture d'écran originale).

La vidéo suivante démontre toute la dynamique :

Développer des capteurs autonomes pour la vision d'un agent AI

Selon les scientifiques de DeepMind, le développement du Generative Query Network (GQN) est un effort pour créer "un cadre dans lequel les machines apprennent à représenter des scènes en utilisant uniquement leurs propres capteurs". En effet, les systèmes de vision artificielle actuels utilisent généralement un apprentissage supervisé. Cela signifie que l'intervention humaine est nécessaire pour choisir et étiqueter les données. Le scientifique de DeepMind a voulu surmonter autant que possible ce type d'intervention humaine.

L'expérience a utilisé ici un environnement "synthétique" (Ibid., p5). La prochaine étape nécessitera de nouveaux ensembles de données pour permettre l'extension à des "images de scènes naturalistes" (Ibid). En fin de compte, on peut imaginer que le GQN commencera par la réalité, capturée par un dispositif optique contrôlé par l'IA. Cela implique que le GQN devra intégrer toutes les avancées en matière de vision par ordinateur. En outre, les capteurs de notre agent IA devront également se déplacer dans son environnement pour capturer les observations dont il a besoin. Cela peut se faire, par exemple, grâce à un réseau de caméras mobiles, comme celles qui sont de plus en plus souvent installées dans les villes. Des drones, également contrôlés par l'IA, pourraient éventuellement compléter le réseau de capteurs.

Amélioration des actionneurs visuels pour un agent AI

Les chercheurs devront également améliorer l'actionneur (Ibid.). Les scientifiques de DeepMind suggèrent que les progrès réalisés dans les capacités de modélisation générative, comme ceux réalisés par les réseaux adversaires générateurs (GAN), permettront d'évoluer vers un "rendu de scène naturaliste".

En attendant, les RAG pourraient conduire à des avancées importantes en termes, non seulement d'expression visuelle, mais aussi d'"intelligence" des agents AI.

Lorsque les RAG s'entraînent à représenter des sorties visuelles, ils semblent également développer la capacité de regrouper, seuls, des objets similaires liés par ce que les chercheurs appellent des "concepts" (Karen Hao, "Un réseau de neurones peut apprendre à organiser le monde qu'il voit en concepts, tout comme nous le faisons“, Revue technologique du MIT10 janvier 2019). Par exemple, le GAN pourrait "regrouper les pixels d'arbres avec les pixels d'arbres et les pixels de portes avec les pixels de portes indépendamment de la façon dont ces objets ont changé de couleur d'une photo à l'autre dans le jeu de formation"... Ils pourraient également "peindre une porte de style géorgien sur un bâtiment en brique avec une architecture géorgienne, ou une porte en pierre sur un bâtiment gothique. Ils ont également refusé de peindre des portes sur un morceau de ciel" (Ibid.) .

Des dynamiques similaires sont observées dans le domaine de la recherche linguistique.

Utilisation d'un bras robotique virtuel comme actionneur

Dans une expérience connexe, les chercheurs de DeepMind ont utilisé un réseau de renforcement en profondeur pour contrôler un bras robotique virtuel au lieu du réseau de génération initiale (Ali Eslami et al., Ibid., p.5). Le GQN a d'abord été formé pour représenter ses observations. Ensuite, il s'est entraîné à contrôler le bras robotique synthétique.

Dans le futur, on peut imaginer qu'un vrai bras robotique remplacera le bras synthétique. Le "système d'actionnement final" deviendra ainsi une interface entre le monde virtuel et la réalité.

L'IA comme séquence entre les mondes

Généralisons maintenant notre compréhension du capteur et de l'actionneur, ou des interfaces pour l'entrée et la sortie de l'IA.

Insérer l'IA dans la réalité, c'est la considérer comme une séquence

Nous pouvons comprendre les processus impliquant des agents AI comme la séquence suivante.

Environnement -> détection de l'environnement (en fonction de la tâche) ->
réalisation d'une tâche -> production d'un résultat AI-intelligible -> expression du résultat en fonction de la tâche et de l'acteur en interaction

L'émergence de nouvelles activités

Cette séquence, ainsi que les détails sur l'actionneur GAN par exemple, montre qu'en réalité, plus d'un agent IA est nécessaire si l'on veut intégrer complètement l'IA dans la réalité. Ainsi, le développement d'agents IA performants impliquera de nombreuses équipes et laboratoires.

Envisager la chaîne de production du futur

En conséquence, de nouveaux types d'activités et de fonctions économiques pourraient émerger dans le domaine de l'IA. On pourrait notamment avoir l'assemblage de la bonne séquence opérationnelle. De même, la conception initiale de la bonne architecture, pour tous les types d'agents et de sous-domaines de l'IA, pourrait devenir une activité nécessaire.

Décomposer l'intégration de l'IA en séquence nous permet de commencer à comprendre la chaîne de production du futur. Nous pouvons ainsi imaginer la série d'activités économiques qui peuvent émerger et qui émergeront. Ces activités iront bien au-delà de l'accent mis actuellement sur les technologies de l'information ou l'analyse des consommateurs, ce que la plupart des premiers adeptes de l'IA semblent privilégier jusqu'à présent (Deloitte, "État des lieux du renseignement artificiel dans l'entreprise“, 2018).

La multiplication vertigineuse des possibilités

En outre, la personnalisation de la séquence d'IA pourrait être adaptée en fonction des besoins. On peut imaginer que divers systèmes d'actionneurs puissent être ajoutés à une séquence. Par exemple, une "représentation de scène" intelligible pour l'agent IA pour utiliser notre deuxième étude de cas pourrait être exprimée sous la forme d'un rendu visuel réaliste, d'un récit et d'un mouvement robotique. Nous sommes ici beaucoup plus proches de la façon dont une stimulation sensorielle déclencherait en nous, êtres humains, toute une gamme de réactions possibles. Cependant, par rapport au monde humain, si l'on ajoute le nuage, les différentes expressions de la "représentation de la scène" pourraient se situer n'importe où sur terre et dans l'espace, selon l'infrastructure de communication disponible.

Les possibilités et les combinaisons qu'elles impliquent sont étonnantes et vertigineuses. Et nous examinerons dans les prochains articles les incroyables possibilités qui sont créées.

Vers la nécessité de redéfinir la sécurité ?

Modifier notre réalité même

En termes de dangers, si nous en venons à nous fier uniquement ou principalement à un monde qui est perçu, compris, puis exprimé par une séquence d'IA, alors nous ouvrons également la porte à une altération de notre réalité qui pourrait être faite plus facilement que si nous utilisions nos propres sens. Par exemple, si l'on se fie à une séquence d'agents IA pour reconnaître et percevoir le monde extérieur à des kilomètres de l'endroit où nous nous trouvons, un problème involontaire ou une intention malveillante pourrait impliquer que nous recevons de mauvaises représentations visuelles de la réalité. Un arbre pourrait être placé là où il n'y a pas d'arbre. Par conséquent, une voiture qui se conduit seule, en essayant de l'éviter, pourrait sortir de la route. Le comportement des utilisateurs de cette même expression de la réalité aura un sens dans le monde de l'IA. Il sera cependant erratique en dehors de celui-ci.

Les acteurs pourraient créer des leurres d'une manière qui n'a jamais été envisagée auparavant. Imaginez Opération Fortitudel'opération par laquelle les alliés ont trompé les nazis pendant la Seconde Guerre mondiale concernant le lieu de l'invasion de 1944, organisée avec la puissance de multiples séquences AI.

En fait, c'est notre réalité même, telle que nous avons l'habitude de la voir exprimée par les photographies, qui peut être altérée d'une manière qui ne peut être saisie directement par nos sens visuels.

Briser la toile mondiale ?

Nous devons également tenir compte de la propagation de la propagande et de ce que l'on appelle aujourd'hui les "fausses nouvelles", et surtout du "faux Internet", comme l'a magistralement expliqué Max Read dans "Quelle est la part de l'Internet qui est fausse ? Il s'avère qu'une grande partie de l'Internet est fausse” (Intelligencer26 décembre 2018). En supposant que la propagation des signaux "Fake Everything" établisse une intention malveillante généralisée, alors l'ajout de la puissance des agents AI pourrait briser la toile mondiale. Les impacts seraient immenses. Pour éviter une telle catastrophe, les acteurs devront concevoir des réglementations très strictes et favoriser et diffuser de nouvelles normes.

L'intelligence artificielle redéfinit complètement la façon dont la sécurité peut être violée et doit donc être défendue.

Intégrer les agents AI en fonction des différentes réalités : Virtuel et matériel virtuel

Du virtuel au virtuel

Lorsque l'environnement de l'agent IA et les autres acteurs sont virtuels, la séquence est - jusqu'à un certain point - plus facile à construire. En effet, tout se passe dans un monde d'une nature unique.

Cependant, la peur et le besoin de savoir impliqueront très probablement que les êtres humains voudront contrôler les différents points de la séquence. Ainsi, des moyens de traduire le monde virtuel en quelque chose d'au moins perceptible par les humains seront probablement introduits. Cela augmentera la complexité du développement.

Du virtuel au matériel

Lorsque l'environnement est réel et que des interactions ont lieu entre un agent IA et des êtres humains, la séquence devient beaucoup plus complexe. Les interfaces jumelles doivent en effet devenir des ponts entre deux types de monde différents, le numérique et le réel.

En fait, si l'on examine sous cet angle l'écosystème de l'apprentissage profond et son évolution depuis 2015, les chercheurs ont consacré une grande partie de leurs efforts initiaux à créer des agents AI capables de "faire une tâche" (jouer, trier, étiqueter, etc.). Parallèlement, les scientifiques ont d'abord développé des moyens de rendre le monde réel intelligible aux agents IA. Dans l'intervalle, les systèmes d'actionneurs développés deviennent intelligibles pour les humains, mais ils restent néanmoins pour la plupart virtuels.

Le retard dans l'expression du monde virtuel dans le monde réel - Les agents AI visuels

Par exemple, le monde réel est traduit en photographies numériques, que l'agent IA reconnaît grâce à des algorithmes d'apprentissage profond. L'IA va les trier ou les étiqueter de manière à ce que les êtres humains les comprennent. Par exemple, les êtres humains comprennent facilement les mots, ou les images affichées sur un écran, qui sont le résultat de la partie actionneur de la séquence. Pourtant, ce résultat reste virtuel. Si nous voulons l'améliorer encore, nous devons créer et utiliser d'autres dispositifs pour améliorer ou faciliter l'interface du virtuel au réel. La reconnaissance d'objets procède de manière similaire.

En ce qui concerne les efforts liés à l'IA visuelle, on peut se demander si nous n'avons pas progressé davantage dans la manière de donner une vision aux agents de l'IA que dans l'utilisation de cette vision d'une manière suffisamment utile aux êtres humains dans le monde réel.

Du virtuel au réel, la perception est-elle plus avancée que l'expression ?

Un processus similaire est à l'œuvre en Chine avec la reconnaissance sonore (Joseph Hincks, "La Chine est en train de créer une base de données des voix de ses citoyens pour renforcer sa capacité de surveillance : Rapport“; Heure23 octobre 2017). L'analyse des données est également un moyen d'expliquer aux agents d'IA ce que sont les internautes, selon différents critères. Des capteurs collectant des données par exemple à partir de pipelines (par exemple (Maria S. Araujo et Daniel S. Davila, "L'apprentissage machine améliore la surveillance du pétrole et du gaz", 9 juin 2017, Parler de l'IdO dans l'énergie" ;Jo Øvstaas, "Données et apprentissage automatique pour la prédiction de la corrosion des pipelines", 12 juin 2017, DNV GL) ou du vol d'un avion, ou de quoi que ce soit d'autre, sont des moyens de rendre le monde intelligible à un algorithme de conception spécifique.

Pourtant, avons-nous fait des progrès similaires dans le développement d'actionneurs qui font l'interface entre le monde virtuel de l'agent IA et la réalité des êtres humains ? Se pourrait-il aussi que nous ayons amélioré toute la séquence mais que les progrès restent limités au monde virtuel ? Dans tous les cas, quels sont les impacts en termes de sécurité, de politique et de géopolitique ?

C'est ce que nous verrons ensuite, en examinant plus particulièrement l'Internet des objets, des robots et des êtres humains, en tant que systèmes d'actionnement potentiels de l'IA.


*Au départ, j'ai utilisé le mot "expressor" au lieu du mot adéquat, "actuator". Grâce à Teeteekay Ciar pour l'avoir aidé à le découvrir.

À propos de l'auteur: Dr Hélène LavoixM. Lond, PhD (relations internationales), est le directeur de la Red (Team) Analysis Society. La prospective stratégique et l'alerte pour les questions de sécurité nationale et internationale est sa spécialité. Elle se concentre actuellement sur le futur monde de l'intelligence artificielle et quantique et sa sécurité.

Image en vedette : Graphique de l'armée américaine par Sonya Beckett, CERDEC NVESD - Domaine public - De Aris Morris, 9 janvier 2018, Magazine ALT de l'arméeScience et technologie.

Publié par Dr Helene Lavoix (MSc PhD Lond)

Dr Hélène Lavoix, PhD Lond (relations internationales), est la présidente de The Red Team Analysis Society. Elle est spécialisée dans la prospective stratégique et l'alerte précoce pour les relations internationales et les questions de sécurité nationale et internationale. Elle s'intéresse actuellement notamment à la guerre en Ukraine, à l'ordre international et à la place de la Chine en son sein, au dépassement des frontières planétaires et aux relations internationales, à la méthodologie de la prospective stratégique et de l'alerte précoce, à la radicalisation ainsi qu'aux nouvelles technologies et à leurs impacts sécuritaires.

Rejoindre la conversation

2 commentaires

  1. Chère Helene

    Merci pour cet article très intéressant
    "Conducteurs d'IA"

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

FR