Tutoriel et comparatif de la création d'images par IA : Dall-e VS Stable Diffusion VS Canva (Text to Image)

Avec la popularité médiatique actuelle de ChatGPT c’est l’occasion de parler également de DALL-E, une autre intelligence artificielle elle aussi conçue par Open AI ! Et plus généralement des IA génératrices d’images. Là où ChatGPT est capable de générer du texte écrit avec une facilité déconcertante, DALL-E et ses semblables ont eux été entraînés pour la création d’images à partir d’une simple demande écrite de l’utilisateur.

Voyons ensemble leur fonctionnement, leurs capacités, mais aussi leurs limites avec cet article comparatif des IA créatrices d’images.

Mais au fait une IA comment ça fonctionne ?

Une très bonne question sur laquelle il peut être intéressant de revenir rapidement, d’autant que nous ne l’avions pas abordée dans notre précédent article au sujet de ChatGPT. Lorsqu’on entend « Intelligence Artificielle » difficile de ne pas avoir en tête ces sortes de robots humanoïdes tels qu’on a pu les voir dans les films. C’est d’ailleurs ce que génèrent les IA elles-même lorsqu’on leur demande une image correspondant à la recherche de ces mots clés, comme l’image d’introduction de cet article.

*Ce paysage n’existe pas, il est 100% artificiel généré par une IA*

Pourtant dans la réalité, nombre des IA existantes ne possèdent aucune enveloppe physique. En effet, il s’agit la majorité du temps, de programmes informatiques basés sur des algorithmes spécifiques ayant été entraîné par l’homme pour effectuer certaines tâches plus ou moins complexes.

La génération d’images est une tâche pouvant être attribuée à une (ou plusieurs) IA ! Pour en savoir plus sur les méthodes de création d’images par IA n’hésitez pas à regarder la vidéo suivante :

Générons nos premières images avec une intelligence artificielle

Pour ce faire, rien de plus simple à première vue, puisqu’il suffit de décrire textuellement à l’IA l’image que l’on souhaite obtenir. Pour cet article nous avons décidé de comparer les images données par trois générateurs d’IA :

DALL-E
Stable Diffusion
Canva (Text to Image)

Bien sûr, il en existe d’autres que vous ne devez pas hésiter à tester également. En voici une liste non exhaustive.

Si vous êtes un peu créatif, nous ne doutons pas que vous trouviez pleins d’idées d’images à générer. Mais pour ceux pour qui ça se révélerait un peu plus complexe il est possible de demander à… ChatGPT un peu d’aide. Hé oui, nous avons utilisé une IA pour utiliser une autre IA…

*Réponse de ChatGPT à la question : Je dois écrire un article sur dall.e, as-tu des idées d’images pouvant être générées avec ce modèle AI ?*

Bien sûr, en tant que modèle de génération d’images, DALL-E peut créer une grande variété d’images. Voici quelques idées d’images que vous pourriez générer avec DALL-E :

Animaux fantastiques : demandez à DALL-E de générer des images d’animaux imaginaires, comme un dragon avec des ailes de papillon ou un serpent avec des pattes.

Aliments étranges : demandez à DALL-E de générer des images d’aliments inhabituels, comme une pizza au chocolat ou un hamburger avec des tranches de pastèque.

Vêtements inhabituels : demandez à DALL-E de générer des images de vêtements étranges, comme un chapeau en forme de tour Eiffel ou des chaussures avec des ailes.

Paysages imaginaires : demandez à DALL-E de générer des images de paysages fantastiques, comme une ville flottante dans les nuages ou une forêt de champignons géants.

Objets hybrides : demandez à DALL-E de générer des images d’objets qui sont un mélange de deux choses différentes, comme un lit qui ressemble à un hamac ou une voiture avec des ailes d’oiseau.

Portraits de célébrités : demandez à DALL-E de générer des images de portraits de célébrités qui n’existent pas, comme une version alternative de Marilyn Monroe avec des tatouages.

Voitures futuristes : demandez à DALL-E de générer des images de voitures futuristes, comme une voiture qui peut se transformer en avion ou une voiture qui peut voler.

Architecture fantastique : demandez à DALL-E de générer des images d’architecture fantastique, comme un gratte-ciel en forme de dragon ou une maison qui ressemble à un arbre.

Ces idées sont simplement des suggestions pour vous donner une idée de ce que DALL-E peut faire. Il y a des milliers d’autres idées d’images que vous pourriez générer avec ce modèle AI.

A chaque IA son propre style

Munis de cette liste, voyons ensemble comment générer nos images, et lequel des différents logiciels choisi s’en sort le mieux.

Pour notre première image nous avons choisi de représenter le dragon avec des ailes de papillon. Pour ajouter un peu de contexte, nous demandons également à ce que celui-ci soit représenté dans « une forêt fantastique de conte de fée ». Selon les IA la langue de demande peut impacter le résultat. Ainsi nous avons rapidement constaté que pour DALL-E et Stable Diffusion l’anglais était la langue donnant les meilleurs résultats. A l’inverse, l’application text to image de Canva fonctionne globalement mieux en Français.

1. Images générées par DALL-E d’un dragon à ailes de papillon

2. Dragons générées par Stable Diffusion

3. Et enfin celle que nous avons choisi de garder pour l’outil de Canva

La première chose que nous pouvons très vite constater : pour une même demande chaque IA a son style qui lui est propre !

DALL-E a un côté « imaginatif », bien que la forêt « de compte de fée » soit un peu sombre pour du féerique, les ailes de papillon sont par contre bien représentées et soignées. C’est dans le style Art Digital.
Chez Stable Diffusion le style est plus « joyeux », un peu enfantin. On imagine très bien ces images illustrant une histoire pour enfants. Ici les dragons sont bien visibles et rappellent la Chine dont il est l’emblème. Par contre l’IA a totalement occulté les ailes de papillons et choisi la solution de facilité en faisant apparaître de vrais papillons aux côtés de nos dragons.
Enfin pour l’outil de Canva, nous avons retenu la seule image correspondant à notre demande parmi la sélection. Cependant les deux éléments (dragon et ailes sont ici bien présents). Bien que toutes les images soient dans le thème et exploitables, Canva s’en sort le mieux dans l’exécution fidèle de la demande et remporte donc un premier point ici.

Quels sont les possibilités de styles artistiques de l’image demandée ?

Si aucune précision sur le style artistique n’est demandé, alors les IA les choisiront pour vous comme dans l’exemple des dragons.

Néanmoins, sur Dall-e par exemple, il est possible de définir les styles suivants :

Peinture à l’huile : Dall-e peut générer des peintures à l’huile à partir d’une description des couleurs et des textures que vous voulez voir dans la peinture.
Photographie : Dall-e peut générer des photos en fonction des couleurs, des textures et des détails que vous voulez voir dans la photo.
Art digital : Dall-e peut produire des œuvres d’art numériques à partir d’un modèle prédéfini ou à partir d’une description des couleurs et des détails que vous voulez voir dans l’œuvre.
Art abstrait : Dall-e peut produire des œuvres abstraites en fonction des mouvements, des couleurs et des formes que vous souhaitez voir dans l’œuvre.
Dessin : Dall-e peut générer des dessins en fonction des couleurs et des formes que vous souhaitez voir dans le dessin.
Art vectoriel : Dall-e peut générer des images vectorielles à partir d’un modèle prédéfini ou à partir d’une description des couleurs et des détails que vous voulez voir dans l’image.

Les exemples de Dragon ont été à priori fait en style Digital Art. Le style influera fortement sur l’image finale générée.

Plus fort encore, il est possible de demander des styles de certains artiste connus. Ainsi nous avons généré un chat dans les style Picasso, Van Gogh et Dali ! Et les résultats sont…assez bluffants !

Notre chat dessiné par une IA dans les styles de 3 grands maîtres de la peinture

Chat style Picasso
Chat style Van Gogh
Chat style Dali

Mieux, nous avons alors demandé un « Chat dans le style Picasso et Dali et Van Gogh » et nous avons obtenu ceci :

Nous avons fait également une demande de « Cochon dans le style Picasso » et le résultat était tout aussi, voir plus, impressionnant…

Les IA risquent de (vont) révolutionner le domaine de l’Art et internet dans les prochaines années, c’est d’ailleurs déjà le cas avec les NFT spéculatives.

On comprend la méfiance des professionnels de l’art vis à vis de ces IA artistiques, leurs craintes sont les mêmes que ceux de l’édition et création littéraire vis à vis des chatbots comme ChatGPT ! Ils ont raison, toutes ces craintes sont, selon nous, justifiées !

Quelles sont les différentes méthodes pour demander la création d’une image avec Dall-e ?

Plusieurs méthodes peuvent être utilisées pour indiquer la création d’une image avec Dalle-e, y compris des méthodes graphiques pour un résultat plus rapide correspondant à vos besoins :

Génération d’images à partir de mots-clés : vous pouvez entrer un mot-clé et Dall-e produira une image en fonction des mots-clés que vous avez saisis.
Génération d’images à partir de phrases : vous pouvez saisir une phrase complète et Dall-e produira une image en fonction de la phrase que vous avez saisie.
Génération d’images à partir de descriptions d’images : Dall-e peut générer des images à partir d’une description détaillée des couleurs, des formes et des objets que vous voulez voir dans l’image.
Génération d’images à partir de scènes : Dall-e peut générer des images 3D à partir d’une description complète d’une scène.
Génération d’images à partir de motifs : Dall-e peut générer des images à partir de motifs que vous avez saisis.
Génération d’images à partir de modèles : vous pouvez fournir à Dall-e un modèle prédéfini et il produira des images basées sur le modèle que vous avez fourni.
Génération d’images à partir de séquences animées : Dall-e peut générer des séquences animées à partir de la description des mouvements, des couleurs et des sons que vous voulez voir dans la séquence.

Des images réalistes mais improbables

On a ensuite demandé à nos générateurs d’image par IA, de nous dessiner une salade avec des yeux : deux éléments qui à première vue ne vont pas ensemble. Pourtant sur cette étape, nos 3 générateurs s’en sont sorti sans difficultés apparentes.

1. Les quatre images, d’une salade avec des yeux, proposées par DALL-E

2. Les deux images correspondant à notre demande générées par Stable Diffusion

3. Et les deux images correspondant pour l’outil de Canva

Ici encore chaque image a son style, mais ce qui frappe surtout c’est le réalisme des différentes images : les IA ont employé le style photographique.

On reconnait particulièrement bien les aliments, au point qu’on pourrait avoir envie de reproduire en cuisine les différentes idées proposées. Si Canva se démarque par son originalité en proposant tout de même une image aux inspirations « émoticônes » c’est ici DALL-E qui remporte le point avec quatre images différentes et toutes dans le thème demandé.

Parmi les flops de Stable Diffusion, une des images vaut tout de même qu’on revienne dessus

En effet, sur cette image éliminée car ne comportant pas d’yeux, on constate par contre l’effort de réalisme de l’IA dans la représentation du plan de travail.

Nos IA sont en effet capables de lier le mot « salade » à l’environnement correspondant. C’était déjà le cas sur les images ci-dessus avec la représentation des assiettes, fourchettes et autres éléments rapportés au domaine culinaire.

Des flops qui restent quand même réguliers

Malgré leur efficacité générale, nos IA génèrent tout de même encore une bonne quantité d’images médiocres, erronées voit totalement en décalage avec la demande. Ça a été le cas pour notre chapeau en forme de Tour Eiffel.

DALL-E remporte le point avec sa seule image approchant notre demande : un chapeau blanc, surmonté d’une Tour miniature qu’on imaginerait parfaitement sur la tête de Geneviève de Fontenay !

En dehors de ce petit fou rire offert par l’IA de Open AI, les autres images étaient soit trop réalistes, représentant simplement l’un des éléments en occultant l’autre :

Sur la première image Stable Diffusion représente la Tour, tandis que sur la seconde DALL-E choisi de nous envoyer une pile de chapeaux en occultant lui aussi la seconde partie de notre demande.

Soit elles avaient une compréhension erronée de la demande comme dans ces deux images dans lesquels DALL-E représente plutôt des figurines souvenir de la Tour Eiffel :

Enfin certaines images sont parfois complètement décalées, comme ça a pu être le cas pour cette image censée représenter une « personne de l’imagination de l’IA Stable Diffusion » qui choisi alors d’y ajouter spontanément une citation dans une langue inconnue…proche de l’anglais…

Une sensibilité variant parfois au mot près

En réalisant les tests on se rend très vite compte qu’il suffit parfois d’un détail à nos IA pour rectifier le tir en cas de résultats peu satisfaisants. Ainsi lorsqu’on demande une première fois à nos IA « une ville flottante dans un ciel nuageux » en sélectionnant la meilleur image pour chacun d’eux on obtient le résultat suivant :

Respectivement de haut en bas, les résultats de Stable Diffusion, DALL-E et de Canva

De très jolies images, mais qui ne reflètent pas vraiment la connotation « irréelle » de notre demande comprise par l’humain mais apparemment pas par nos générateurs. Il suffit alors d’un changement subtil dans la demande pour obtenir des résultats totalement différents.

Ainsi avec la phrase « une ville fantastique flottant dans un ciel nuageux » on obtient cette fois :

1. Des images beaucoup plus imaginatives de la part de DALL-E

2. De très jolies villes fantastiques de la part de Stable Diffusion qui omet par contre complètement la partie « flottant dans un ciel nuageux »

3. Quelques scènes qui pourraient être tirées d’un jeu vidéo (Minecraft ou Lego Worlds par exemple) par Canva

On peut ici attribuer un point pour DALL-E et Canva qui sont tout deux parvenus, à travers l’une ou l’autre de nos demandes, à faire flotter notre ville dans les nuages.

Mais alors, quel avenir pour la génération d’images ?

Face à une solution qui globalement fonctionne plutôt bien, on peut se demander quels pourraient être les utilités futures de la génération d’images par intelligence artificielle. Bien sûr il est tentant de citer ici la création de fails sur internet, n’hésitez d’ailleurs pas à venir poster sur notre forum ceux que vous pourriez déjà avoir croisés en ligne.

Mais on peut aussi imaginer des usages plus sérieux. Ainsi les résultats obtenus en demandant à l’outil de Canva de nous créer une image « d’arbre qui soit en fait une maison » pourraient aisément donner des idées à un architecte chargé de créer des habitats pouvant se fondre dans la nature !

Mais alors, qui de nos 3 générateurs d’image s’en sort le mieux ?

Pour l’arbre qui serait aussi une maison on accorde aisément un point à chaque outil !

Exemples des images proposées respectivement par DALL-E, Stable Diffusion puis l’outil de Canva

La voiture aux ailes d’oiseaux avait mis en difficulté toutes nos IA, mais la voiture qui peut voler a permis à Canva et Stable Diffusion de se démarquer avec des rendus futuristes assez réalistes :

Respectivement Stable Diffusion à haut et Canva en bas.

Enfin DALL-E s’est montré plutôt performant avec son immeuble en forme de dragon (qui reste cependant en construction), et c’est Canva qui a réussi à répondre le mieux à la demande de portrait que nous avions quelque peu modifié en remplaçant la célébrité par « une personne sortie de l’imagination de l’IA ».

Malgré quelques éléments laissant deviner la génération d’image derrière les deux portraits de Canva, le réalisme est tout de même frappant.

Au décompte final ce sont donc DALL-E et l’outil de Canva qui remportent respectivement 5 points chacun.

Ils sont globalement à même de fournir des résultats en adéquation avec une majorité de demandes de l’utilisateur.

Canva se démarque par son réalisme tandis que DALL-E semble plus pertinent dès que la demande requiert de l’imagination ou le domaine de la peinture.

Cependant malgré seulement 2 points, Stable Diffusion ne démérite pas dans la qualité d’image qu’il est capable de fournir ! Le bémol se situe dans sa compréhension des demandes utilisateur puisqu’il a souvent tendance à rester très terre à terre. Il reste cependant très intéressant à découvrir également.

Quoiqu’il en soit, on peut s’attendre dans les années à venir, à voir l’intelligence artificielle révolutionner de nombreux secteurs d’activité. Et certainement plus vite que certains le pensent puisque des livres écrits, en partie ou intégralement, par des IA sont déjà en vente sur Amazon…Ce court reportage vidéo de BFMTV en parlait il y a quelques jours :