Les générateurs d’images au défi de la laideur

11 minutes de lecture
écrit par Sébastien Lapaire · 02 avril 2025 · 0 commentaire

Si l’aspect esthétique des images créées par intelligence artificielle atteint désormais le stade ultime du photoréalisme, leur champ sémantique demeure humain, trop humain.

Comme y parvint le procédé photographique avant lui, à force de renforcements techniques, le prompt art – qui consiste à générer des images en formulant des commandes textuelles sur l’interface d’une intelligence artificielle (IA) – peut désormais se targuer d’obtenir des résultats proches de l’illusion de réalité. Or, quand la photographie se propose d’offrir une représentation de la réalité par la médiation d’un opérateur et de son appareil, son référent s’inscrit dans la matérialité du monde physique; la méthode computationnelle, elle, génère une image composite exempte de ce lien d’ancrage direct, sur la base hétérogène de milliards de références visuelles préexistantes compilées sur Internet. Autrement dit, si l’une produit des représentations de la réalité par l’intermédiaire de procédés optiques et mécaniques, l’autre (re)compose des (re)productions de ces représentations par formulation mathématique.

Il convient donc, avant toute chose, de concevoir que les images photoréalistes créées par intelligence artificielle ne sont pas, à proprement parler, des photographies.

L’image est langage

En fondant son fonctionnement sur l’utilisation de la sémantique textuelle, le prompt art rappelle à chacun que l’image est langage. C’est là même son intérêt premier, bien qu’il ne soit pas exclusif. Ce qui fait en revanche la spécificité de l’image par intelligence artificielle, c’est qu’elle se fonde sur la totalité des références préexistantes pour les synthétiser.

Selon ChatGPT, les sources photographiques (réseaux sociaux, banques d’images, sites d’actualité et médias, etc.) dominent largement – jusqu’à 80% – la proportion des images fixes présentes sur internet. En comparaison, les reproductions numériques d’œuvres issues de l’histoire de l’art n’en représentent que 5 à 15%.

Il devrait donc être possible, en faisant appel à des commandes simples, de sonder l’état moyen des représentations humaines et les discours majoritaires en ce début de XXIe siècle. Pour ce faire, plusieurs générateurs d’image ont été questionnés sur le concept de laideur, dans le but d’élaborer une analyse critique générale sur le comportement et les résultats obtenus. Il s’agit également de juger de la «créativité» dont ces systèmes pourraient faire preuve en proposant des résultats iconoclastes: la laideur n’est-elle que l’antithèse de la beauté? Son absence?

L’IA est synthétiseur d’image

Pour répondre à notre première requête (voir ci-dessous) avec la commande [image photoréaliste symbolisant la laideur], les IA sollicitées se sont tout d’abord appuyées sur l’analyse d’un vaste corpus d’images en ligne. Au cours de cet entraînement, appelé deeplearning, les images ont été disséquées afin d’extraire des caractéristiques statistiques de leur composition générale, telles que textures, formes, styles, compositions, ou entités iconographiques. Cette étape permet de reconnaître et recombiner ces éléments de manière abstraite. Afin de satisfaire notre requête, les IA ont dès lors interprété notre commande textuelle, le prompt, pour y extraire les concepts visuels associés. Pour terminer et créer l’image en sortie de processus, elles ont commencé par générer une matrice aléatoire de pixels, le random noise, qu’elles ont ensuite affinée par itérations successives grâce aux modèles entraînés, jusqu’à aboutir à une composition cohérente et détaillée.

Afin de révéler les conceptions les plus courantes sur le thème de la laideur et la façon dont elles sont restituées en image par les IA, les prompts formulés dans le cadre de cette expérience sont très simples, dépourvus de considérations formelles ou sémantiques.

Ils ont été adressés à quatre générateurs afin de comparer leurs résultats: ChatGPT, Midjourney, Adobe Firefly et Grok. Enfin, leur paramétrage conceptuel et esthétique – plus ou moins réglable selon les interfaces – a été réduit au strict nécessaire afin de privilégier des réponses moyennes ressemblantes aux sources photographiques «réalistes» principalement convoquées.

La laideur est humaine

Ce que semble d’abord montrer la convocation de la laideur sur les générateurs sollicités, c’est que non seulement elle est un concept esthétique et moral de nature humaine, mais elle s’applique d’abord à cette figure. Ce ne sont pas des paysages, des objets ou des formes abstraites qui sont initialement renvoyés par défaut sur les différentes IA en réponse à des prompts tels que [laideur] ou [générer une image qui dépeint l’idée de laideur], mais des visages humains en gros plan, sur fonds neutres, cadrés serrés ou en buste. Ces derniers sont premièrement et majoritairement féminins, même s’ils cohabitent avec des variantes masculines présentes en moindres proportions. Il est à noter qu’à l’inverse, la convocation de la beauté donne lieu à des typologies iconographiques identiques.

L’idée de laideur, tous les générateurs d’images l’expriment par des caractéristiques esthétiques identiques. La plus importante est celle de l’expression faciale, qui se situe dans le champ de l’altérité et des affects. Ainsi, la totalité des visages renvoyés expriment des émotions dites négatives, telles que la haine, la colère, le dégoût, l’horreur, ou des attitudes dépersonnalisées à la limite de l’arriération mentale. Toutes se passent de l’artifice iconique qu’est le sourire. A l’inverse, on le retrouve systématiquement dans toute représentation humaine évoquant la beauté.

Parmi les critères inesthétiques récurrents, on observe la difformité et l’asymétrie du faciès, marqués par des froncements exubérants. Ces dernières sont physiologiques, et souvent exagérées par un effet de grossissement et de distorsion optique. On retrouve aussi la vieillesse et ses profondes rides, ainsi que l’état maladif. Ce dernier est exprimé par des corps émaciés, rougeauds, boutonneux, par des yeux exorbités, et parfois même par des peaux trouées ou des chairs mutilées. Parmi plusieurs biais redondants, il faut souligner par exemple le fait que
Midjourney et Firefly expriment un fort tropisme sur le rutilisme et les taches de rousseur comme étant synonymes de laideur, et que ChatGPT et Firefly refusent de considérer la laideur autrement que sous les traits ethniques caucasiens, alors qu’ils encouragent une idée diversifiée de la beauté humaine.

Le paysage est nature

En emmenant les IA sur la question de la laideur appliquée au paysage, on remarque de menues différences entre elles. Il est intéressant de constater que les images premièrement générées ne sont pas urbaines, mais répondent à l’appel de l’idée de nature, dominée par le végétal. Les images générées par Adobe Firefly se passent des codes de la représentation pittoresque héritée des codes du sublime et du romantisme, ou de l’art des jardins à l’anglaise. Le monde végétal y apparaît banal, en friche, désorganisé, sans valorisation d’un élément ou d’un autre, faiblement profilé en perspective, avec des plans peu hiérarchisés. Ces paysages sont visiblement privés de qualités d’émerveillement ou d’effets spectaculaires.

Avec Midjourney, on découvre des scènes défraîchies, dénaturalisées, composées de couleurs peu vives, de ciels gris qui tendent à l’apocalypse. Dans l’un et l’autre, on remarque la présence répétée d’éléments végétaux en dépérissement, de terres arides, brûlées, ou impropres à l’émergence de la vie.

A cette idée de terrain mort et de fin du monde, ChatGPT ajoute la dimension humaine en invoquant les éléments iconographiques de la modernité industrielle désormais associée à la notion d’anthropocène: usines dont les cheminées enfument l’atmosphère, carcasses de véhicules abandonnés, pylônes téléphoniques en ruine, etc. Dans la même idée, Midjourney, ChatGPT et Grok traitent la question d’un paysage urbain inesthétique en le présentant comme étant déshumanisé, décrépit, à l’abandon, sous un ciel gris, et parfois même comme ayant été en proie à l’anarchie sociale, comme en témoignent les dégradations et les rues jonchées de gravats et de déchets.

Pas intelligente et peu inhumaine

Sans surprise, l’aspect formel et sémantique des images générées selon le paramétrage de cet exercice ne transcende pas l’état de nos représentations habituelles et ne fait que les souligner. Souvent, en forçant le trait. La laideur se résume aux codes inverses de la beauté: quand la première exprime plus ou moins directement l’idée de la mort par les émotions négatives, la vieillesse, la maladie ou les paysages de no man’s land, la seconde représente l’idée de vivacité par une jeunesse souriante évoluant au sein d’un pays de cocagne. L’intelligence artificielle nous renvoie notre propre image par effet de miroir, sans y apporter d’éléments de questionnement nouveaux. Elle peut néanmoins nous encourager à prendre du recul sur nos propres représentations et inspirer une analyse critique de la production des images numériques.


Image artificielle générée via Adobe Firefly avec le prompt «generate photorealistic image that symbolizes ugliness» par Nicolas Brodard, 08.02.2025

Image artificielle générée via Midjourney avec le prompt «ugly landscape» par Nicolas Brodard, 08.02.2025

Image artificielle générée via Firefly avec le prompt « ugly landscape » par Nicolas Brodard, 08.02.2025

Image artificielle générée via Midjourney avec le prompt «ugly man» par Nicolas Brodard, 08.02.2025

Image artificielle générée via Midjourney avec le prompt «ugly woman» par Nicolas Brodard, 08.02.2025

Image artificielle générée via Midjourney avec le prompt «Generate photorealistic image that symbolizes ugliness» par Nicolas Brodard, 08.02.2025

Image artificielle générée via Midjourney avec le prompt «Generate photorealistic image of an ugly landscape» par Nicolas Brodard, 08.02.2025

Photographe et reporter indépendant, titulaire de différents prix, Nicolas Brodard est photographe, rédacteur et graphiste au Regard Libre.

Vous venez de lire une analyse contenue dans notre dossier «Faire resurgir la beauté», publié dans notre édition papier (Le Regard Libre N°114).
Sébastien Lapaire
Sébastien Lapaire

Correspondant au Palais fédéral pour «L’Agefi», auteur-compositeur-interprète et essayiste, Jonas Follonier est le fondateur et rédacteur en chef du «Regard Libre».

Laisser un commentaire