Quiz : Reconnaîtrez-vous les réponses de ChatGPT, Claude, ou d’aucun des deux ?
En Bref
- ChatGPT et Claude produisent des réponses de plus en plus proches, ce qui rend la reconnaissance à l’aveugle nettement plus difficile dans un quiz.
- Le format le plus fiable est un questionnaire en affirmations courtes, à attribuer à ChatGPT, Claude, les deux ou aucun, avec justification.
- Une anecdote connue sert de piège classique : la plainte de Scarlett Johansson a mené OpenAI à retirer une voix de son mode vocal, sujet typique d’un test d’attribution.
- La comparaison gagne à porter sur des critères observables (style, refus, structure, citations, tolérance à l’ambiguïté) et pas sur des impressions.
- Pour trancher, la meilleure méthode consiste à combiner scoring, contre-exemples et une règle de décision simple (si doute persistant, classer « aucun des deux »).
Le 10 mai 2024, OpenAI a annoncé retirer une des voix de ChatGPT après des questions publiques liées à une plainte de Scarlett Johansson, un épisode devenu un repère pratique pour qui veut reconnaître l’origine d’une anecdote dans un quiz d’intelligence artificielle. Depuis, les assistants conversationnels se copient à une cadence comparable à celle des plateformes sociales : une interface, une option, un réglage de style, et l’équivalent apparaît ailleurs. Dans ce contexte, un questionnaire « ChatGPT, Claude, les deux ou aucun » n’est plus un jeu de devinettes basé sur la réputation, mais un test de lecture attentive : vocabulaire de sécurité, façon de structurer, gestion des consignes, et comportement face aux demandes ambiguës.
Le principe est simple et exigeant : chaque item présente une affirmation, une fonctionnalité, une micro-anecdote ou un extrait de réponses typiques, puis il faut attribuer l’élément à ChatGPT, Claude, aux deux, ou à aucun. La difficulté vient de la convergence. Les deux outils savent résumer, reformuler, écrire du code, et respecter des contraintes de ton, ce qui rend la comparaison moins intuitive. Pour rester utile au grand public, ce type de quiz doit donc s’appuyer sur des signaux concrets, des items vérifiables, et une logique de scoring qui limite la surinterprétation.
Quiz ChatGPT vs Claude : règles de jeu fiables pour reconnaître les réponses
Un bon quiz repose d’abord sur des règles claires, car l’objectif n’est pas de « sentir » un style, mais de reconnaître des marqueurs reproductibles. La première règle utile consiste à imposer quatre choix systématiques : ChatGPT, Claude, les deux et aucun des deux. Sans la case « aucun », l’exercice devient biaisé, car beaucoup d’affirmations circulent sous forme de raccourcis, ou mélangent plusieurs produits, ou même confondent un chatbot et une application qui l’embarque. La deuxième règle consiste à exiger une justification courte après chaque décision. Une justification de deux phrases suffit pour forcer l’attention sur les indices : structure, prudence, niveau de détail, et manière de traiter les demandes sensibles.
Le format le plus robuste est celui des affirmations courtes, car il limite la tentation d’interpréter l’intention. Exemple d’item : « Un mode vocal a été modifié après une plainte de Scarlett Johansson ». Cet item ne demande pas d’opinion, seulement une attribution. Ici, le signal factuel renvoie à ChatGPT. Un autre item peut porter sur un comportement, par exemple : « Refuse poliment et propose une alternative sous forme de plan ». Ce type d’item est plus délicat, car les deux assistants l’adoptent souvent. Il bascule alors vers « les deux », sauf si l’extrait contient un détail distinctif, comme une granularité de refus, ou une structure très spécifique.
La convergence fonctionnelle rend la comparaison plus intéressante quand le questionnaire varie les familles d’items. Les questions « histoire et entreprise » marchent bien, car elles sont ancrées (OpenAI pour ChatGPT, Anthropic pour Claude). Les questions « interface et usages » sont plus piégeuses, car elles dépendent de la version, de l’appareil, et du pays. Les questions « style d’écriture » sont utiles si elles reposent sur des extraits courts et contrôlés, avec une consigne identique. Un item sur « citations et sources » peut aussi aider, car certains modèles ont des tendances à sur-citer, sous-citer, ou reformuler des références de façon prudente.
Pour des lecteurs qui aiment les formats interactifs, il est pertinent d’observer comment d’autres quiz numériques cadrent la difficulté et évitent la triche par recherche immédiate. Les mécaniques de scoring et de progression vues dans des jeux marketing orientés engagement peuvent inspirer un barème : points pleins si attribution + justification solide, demi-points si attribution correcte sans justification, zéro si justification contradictoire. Ce cadre transforme un simple divertissement en outil d’apprentissage, avec une progression visible sur la capacité à reconnaître des réponses générées.
Grille d’évaluation : ce qui se mesure, ce qui se devine
Pour éviter un test biaisé, il faut séparer ce qui se mesure de ce qui relève de l’impression. Se mesure : la longueur moyenne des paragraphes, la présence de listes, le degré de reformulation de la consigne, l’usage de précautions (« je ne peux pas… », « je peux proposer… ») et la tendance à proposer un plan avant d’agir. Se devine : « personnalité », « chaleur », « créativité ». Les items doivent privilégier les marqueurs mesurables. Cela n’empêche pas un volet stylistique, mais ce volet doit s’appuyer sur un protocole : même prompt, même contraintes, puis lecture à l’aveugle.
Une règle opérationnelle aide à la décision : si deux indices forts se contredisent, l’item doit pouvoir être classé « aucun des deux ». Cette case n’est pas un échec, c’est un garde-fou contre les faux souvenirs et les features fantômes. Dans un univers où l’intelligence artificielle évolue vite, le quiz gagne en crédibilité quand il assume que certaines affirmations sont simplement inattribuables.
Reconnaître les réponses de ChatGPT et Claude : indices de style, structure et comportements
La reconnaissance à partir d’un extrait se joue souvent sur des détails. Un premier indice est la façon de structurer l’information. Quand un assistant propose spontanément un plan avec titres, sous-points, et une logique « étape 1, étape 2 », l’extrait devient plus facilement attribuable… sauf que cet automatisme est désormais partagé. Il faut donc ajouter des contraintes : demander une réponse en 120 mots, ou imposer deux formats (une liste puis un paragraphe), afin de voir comment l’outil priorise. La manière de compresser sans perdre de sens est un vrai différenciateur dans un quiz, parce qu’elle révèle une gestion interne du contexte et des objectifs.
Un second indice, plus technique, est la gestion des demandes limites : conseils médicaux, juridique, sécurité, ou contenus protégés. Les deux modèles refusent, mais les motifs et la façon de proposer une alternative varient. Dans un questionnaire, un item peut décrire un refus « sec » contre un refus « accompagné ». L’attribution ne doit pas devenir une caricature, car les politiques changent. En revanche, l’item devient instructif si la question demande au participant d’expliquer quel élément du texte indique un cadre de sécurité, par exemple l’invitation à consulter un professionnel, ou la reformulation vers un contenu général.
Un troisième indice est la gestion des ambiguïtés. Lorsqu’un prompt est volontairement flou (« rédige un mail pour annuler demain »), l’outil peut demander une précision (à qui, quel ton, quel motif) ou produire une version standard. Dans un test, les meilleurs items imposent le même flou à plusieurs modèles et comparent le premier réflexe. L’important est de conserver des prompts réalistes : annulation de rendez-vous, synthèse d’un compte rendu, reformulation d’un texte pour LinkedIn. Sur ce dernier point, les contraintes propres au réseau (longueur, accroche, hashtags, collaboration) permettent d’observer des choix de structure, comme ceux décrits dans un guide sur les posts collaboratifs LinkedIn, utile pour bâtir des items comparables.
Un quatrième indice touche à la « propreté » de la réponse : répétitions, prudence excessive, tendance à rappeler la consigne. Certains extraits révèlent un modèle qui sécurise en re-cadrant, d’autres un modèle qui exécute vite. Pour un quiz, ces différences ne valent que si elles sont observées sur plusieurs items. Une seule occurrence peut être un hasard. Un score par lots de 5 questions, avec un mini-bilan, réduit ce bruit.
Exemples d’items de questionnaire (sans réponses) pour éviter l’auto-spoil
- Fonctionnalité : « Propose un mode vocal et des voix personnalisées au niveau de l’app ». Indice attendu : mention d’un événement public ou d’une interface.
- Écriture : « Résume un texte de 900 mots en 5 puces, puis en 3 phrases ». Indice attendu : gestion de la compression et cohérence.
- Code : « Donne une fonction Python qui lit un CSV et affiche les 3 colonnes les plus corrélées ». Indice attendu : propreté, commentaires, gestion des erreurs.
- Sécurité : « Demande des instructions détaillées pour contourner un contrôle ». Indice attendu : refus, redirection, alternative safe.
- Ambiguïté : « Rédige un message pour “décaler demain” sans autre contexte ». Indice attendu : demande de précision ou exécution générique.
Pour garder le quiz honnête, ces items doivent être testés avec des prompts identiques, sur une même fenêtre de temps, puis archivés. La dérive des comportements d’un mois à l’autre rend les anciennes captures moins pertinentes, ce qui pousse à renouveler le stock de questions.
Comparaison en conditions réelles : prompts identiques, scoring et décision “aucun des deux”
Une comparaison utile se rapproche d’un protocole de test, même dans un format grand public. Premier principe : les prompts doivent être identiques, copiés-collés au caractère près. Le moindre détail (« réponds en français », « structure en H2 », « pas de jargon ») peut modifier le résultat. Deuxième principe : on évite les prompts trop longs. Un prompt de 2 à 5 lignes, avec une contrainte claire, suffit pour générer des réponses comparables. Troisième principe : on note séparément la qualité (utile ou non) et l’attribution (reconnaissable ou non). Un modèle peut produire un bon texte mais rester difficile à identifier, ce qui est précisément l’enjeu du quiz.
Un barème simple rend l’exercice cohérent : 1 point pour une attribution correcte, +1 point si la justification cite un indice concret (« présence d’un plan en trois niveaux », « refus avec alternative », « rappel des limites »). La case « aucun des deux » doit être scorée positivement quand elle est justifiée, car elle reflète une discipline de lecture. Dans un questionnaire, beaucoup d’erreurs viennent d’un biais d’attribution : supposer qu’un modèle est « forcément » responsable d’un fait, ou confondre l’outil et une app tierce.
Le protocole gagne à couvrir plusieurs formats de production : texte court, mail, plan de projet, extrait de code, et reformulation. C’est aussi l’occasion d’introduire des « distracteurs » : des extraits écrits par un humain, des textes issus d’un correcteur, ou des réponses provenant d’un autre assistant. Cela renforce la case « aucun », qui devient un vrai choix de décision, pas un refuge.
Pour densifier sans complexifier, un quiz peut intégrer une catégorie « productivité » autour de la prise de notes et de la synthèse. Des ressources orientées méthodes, comme un dossier sur des notes et fiches avec Gemini, montrent comment transformer un flux de texte en fiches. Dans un test, la question n’est pas de savoir qui « fait des fiches », mais qui respecte mieux des contraintes (format, granularité, vocabulaire) et qui garde une cohérence entre les puces et la synthèse finale.
Check-list de test reproductible (à appliquer avant de publier un quiz)
- Horodatage : noter le jour de collecte des réponses et la version d’interface si elle est affichée.
- Prompts : conserver un fichier source unique, sans variantes.
- Échantillons : minimum 12 questions pour limiter l’aléatoire.
- Mélange : intégrer 20 à 30% d’extraits « aucun des deux » (humain, autre outil, ou texte neutre).
- Correction : expliquer après coup les indices, pas seulement donner la solution.
Ce cadre réduit le débat stérile « l’un est mieux » et recentre sur le but : reconnaître correctement, dans des conditions reproductibles.
Construire un quiz utile au grand public : pédagogie, pièges courants et choix éditoriaux
Un quiz grand public réussit quand il apprend quelque chose au-delà du score. Cela implique des explications après chaque item : pourquoi l’attribution est plausible, quels indices sont fiables, et quels indices sont trompeurs. La pédagogie peut se faire en trois niveaux : (1) indice évident (entreprise, fait public), (2) indice de forme (structure, longueur), (3) indice comportemental (refus, clarification). Ce découpage aide à comprendre pourquoi une intuition peut être fausse, même quand la réponse « sonne juste ».
Parmi les pièges courants, le premier est l’ancrage sur la réputation. Beaucoup associent ChatGPT à une écriture « démonstrative » et Claude à une écriture « posée ». Or, en pratique, le style dépend fortement du prompt, du mode, et des contraintes de longueur. Le deuxième piège est la confusion entre modèle et interface. Une même marque peut proposer plusieurs modèles, et une même interface peut évoluer sans prévenir. Le troisième piège est la surestimation des détails. Un mot rare, une tournure polie, ou une liste bien alignée ne suffit pas à attribuer de façon fiable.
Le choix éditorial le plus important concerne le niveau de difficulté. Un questionnaire trop facile se résume à des faits de culture générale (« OpenAI vs Anthropic »). Un test trop dur devient un concours d’interprétation. Le bon compromis consiste à mélanger 30% d’items factuels, 50% d’items de comportement, et 20% de distracteurs « aucun ». Cette répartition stabilise la décision et évite que le résultat dépende d’un seul thème.
La forme compte aussi. Une question par écran, un chronomètre optionnel, et un affichage clair des réponses évitent la fatigue. Les choix de microcopy doivent rester neutres : pas de formulation qui suggère la réponse. Pour ceux qui veulent prolonger le format, un autre quiz orienté culture numérique, comme un questionnaire sur Station F, montre comment une progression par thèmes peut rendre l’apprentissage plus fluide, sans transformer l’exercice en cours théorique.
Items “fonctionnalités copiées” : comment éviter les questions obsolètes
La copie de fonctionnalités est un thème central, mais risqué, car une option peut apparaître puis changer de nom ou de périmètre. Pour limiter l’obsolescence, les items doivent viser des comportements stables : capacité à maintenir une contrainte de format sur plusieurs tours, qualité de clarification, gestion des demandes sensibles, et cohérence d’une synthèse. Les items « UI » doivent être datés et vérifiés, sinon ils basculent dans « aucun » par prudence éditoriale.
Un dernier point concerne la transparence : un quiz sérieux indique ce qui est évalué (attribution, justification, méthode) et ce qui ne l’est pas (performance absolue, vérité factuelle du monde). Le lecteur gagne une compétence : repérer des marqueurs dans des réponses d’intelligence artificielle, plutôt que mémoriser des clichés.
On en dit Quoi ?
Le format « ChatGPT, Claude, les deux ou aucun » fonctionne quand il s’appuie sur des indices mesurables et un protocole de comparaison stable. Les meilleures questions sont celles qui obligent à justifier une décision, car elles réduisent l’attribution au hasard. La case « aucun des deux » doit être utilisée sans complexe : elle protège le quiz contre les affirmations obsolètes et les confusions d’interface. Pour un public large, un test en 12 à 20 items, corrigé et expliqué, apporte une vraie compétence de lecture des réponses générées.


