Cold War 2 — Réduire la charge cognitive dans un jeu de grande stratégie

01 Contexte

Cold War 2 est un jeu de grande stratégie en accès anticipé, développé par le studio indépendant Maestro Cinetik. Contrairement aux wargames classiques, sa philosophie est d'éviter les conflits ouverts — susceptibles de déclencher l'apocalypse nucléaire — au profit d'actions économiques, diplomatiques, d'espionnage et de subversion, et de choix historiques et politiques à l'échelle mondiale.

Le studio est une très petite structure : le dirigeant est aussi le principal développeur et concepteur des jeux. Ce jeu, crucial pour la pérennité du studio, concentre comme beaucoup de titres du genre une énorme quantité d'informations à l'écran. Le défi UX était clair : réduire la friction et la surcharge sans appauvrir la profondeur qui fait justement l'intérêt du jeu pour son public.

Carte du monde de Cold War 2 : blocs américain et soviétique en 1959, icônes d'actions à gauche, niveau Defcon en haut — Fig. 1 — La carte du monde, interface centrale du jeu : c'est ici que le joueur sélectionne les pays et déclenche ses actions.

02 Problème & question de recherche

Comment rendre un système de grande stratégie plus lisible, plus compréhensible et moins frustrant pour les joueurs — y compris sur petit écran (Steam Deck) — sans simplifier abusivement la profondeur stratégique ?

Concrètement, cela se déclinait en sous-questions :

Où les joueurs regardent-ils — et que manquent-ils — pendant les phases de décision ?
Quels éléments d'interface génèrent de la confusion, des erreurs ou de la frustration ?
Quelles corrections offrent le meilleur ratio impact/coût pour un petit studio ?

03 Mon rôle

UX Researcher junior autonome, sous la supervision du directeur du studio. J'ai pris en charge l'ensemble de la chaîne de recherche : cadrage, recrutement, passation, analyse et restitution des recommandations.

04 Méthodes utilisées

Audit ergonomique et détection de bugs sur Steam Deck
Vérification de lisibilité et d'accessibilité sur petit écran
Recrutement de joueurs qualifiés (≈ 100 h sur une liste de jeux de stratégie définie avec le studio)
Prétests du protocole avec 2 profils moins ciblés
Test de perception des pages de vente (4 fiches, prix masqués, classement par préférence)
Tests playthrough (sessions d'environ 3 h)
Observation avec grille (fonctionnalités utilisées, motivation, gameflow, émotions)
Pensée à voix haute (think-aloud)
Enregistrement vidéo via OBS, horloge incrustée pour la synchronisation
Eye-tracking avec Tobii Eye Tracker 5
Extraction expérimentale des données de regard
Création de heatmaps et de scanpaths
Questionnaire GEQ, version In-game (14 items) — administré aussi à 15 joueurs expérimentés en comparatif
Entretiens semi-directifs
Synthèse des irritants et priorisation par criticité

Prototyper l'eye-tracking avec du matériel grand public. Le Tobii Eye Tracker 5 (299 €, achat que j'ai proposé au studio) est à l'origine un accessoire destiné aux joueurs : aucun logiciel d'extraction de données n'est fourni. Avec l'assistance d'IA, j'ai développé un script C#/.NET pour enregistrer la position du regard en CSV (33 Hz — suffisant pour les saccades volontaires, conformément au théorème de Nyquist-Shannon), puis des scripts Python pour produire des heatmaps de la carte du monde et des scanpaths superposés aux vidéos OBS, synchronisés par horloge incrustée.

Heatmap du regard superposée à la carte du monde de Cold War 2 : zones chaudes sur le score, le budget, la France et les panneaux latéraux — Fig. 2 — Heatmap produite à partir des données du Tobii Eye Tracker 5, partie où le participant incarne la France : surveillance constante du score et du budget en haut, zones chaudes sur les panneaux latéraux d'information.

Scanpath superposé à une popin d'événement historique : fixation sur l'illustration puis saccades de lecture vers le texte — Fig. 3 — Scanpath superposé à la vidéo OBS d'une popin d'événement : première saccade vers l'illustration, puis lecture du texte à droite.

05 Ce que j'ai observé

Les tests ont fait remonter des irritants récurrents, souvent invisibles pour le concepteur à force d'habitude — c'est la « malédiction de la connaissance » :

des infobulles trop lentes à apparaître (délai de 1,25 s, au-delà des seuils de la littérature : 1 s selon Nielsen, 500 ms selon Doherty & Sorenson), alors qu'elles portent une grande partie de l'explication du système ;
des traductions françaises manquantes qui cassent la compréhension ;
des feedbacks insuffisants après les actions : les joueurs ne savaient pas toujours si une action avait réussi ou échoué ;
une barre de séparation prise pour une barre de scroll, source d'erreurs de manipulation ;
un niveau Defcon peu lisible, alors qu'il structure la tension du jeu ;
des images perçues comme cliquables qui ne l'étaient pas (affordance trompeuse) ;
des pop-ins difficiles à fermer et une liste de scénarios trop dense ;
des changements de politique nationale déclenchés sans confirmation, aux conséquences lourdes et irréversibles.

Le GEQ a apporté une triangulation intéressante : chez les nouveaux joueurs, le sentiment de compétence est faible (trois fois plus élevé chez les 15 joueurs expérimentés interrogés en comparaison) et la frustration revenait dans un entretien sur deux — mais la tension et l'affect négatif restaient bas, et l'immersion correcte. Autrement dit : une partie de la frustration fait partie du sel du jeu. Le rôle de l'UX researcher est de chasser la frustration de l'interface, pas celle du gameplay.

Écran des politiques nationales de l'URSS dans Cold War 2 : portrait de Staline, listes de politiques de diplomatie, société et économie — Fig. 4 — L'écran des politiques nationales : un changement s'y déclenchait sans confirmation, aux conséquences lourdes — l'une des recommandations prioritaires.

06 Recommandations & livrables

Les recommandations ont volontairement été gardées simples, courtes et actionnables : le studio disposait de peu de temps de développement. L'objectif n'était pas de proposer une refonte ambitieuse et irréaliste, mais d'identifier des corrections à fort ratio impact/coût. Le livrable principal : un rapport de recherche sous forme de tableaux priorisés par criticité, chaque point étant appuyé par des observations chiffrées (nombre d'utilisateurs concernés) et des références en psychologie cognitive et en ergonomie — le développeur n'ayant pas le temps de lire de longs rapports. Parmi les recommandations :

réduire le délai d'apparition des infobulles à 500 ms maximum ;
corriger les traductions françaises manquantes ;
renforcer les feedbacks audio et visuels après les actions, et mieux distinguer succès et échec ;
ajouter une confirmation ou une annulation sur les changements de politique nationale ;
corriger la barre de séparation prise pour une barre de scroll ;
clarifier l'affichage du niveau Defcon ;
rendre cliquables les images perçues comme des liens ;
améliorer la taille et la facilité de fermeture des pop-ins ;
structurer la liste de scénarios, trop dense ;
envisager l'activation par défaut de la sauvegarde automatique.

07 Impact & apprentissages

Plusieurs recommandations ont été implémentées pendant ou juste après le stage, notamment la réduction des délais d'infobulles et des corrections de traduction. Et l'effet a pu être vérifié : lors des derniers tests, plus aucune remarque spontanée sur la latence des infobulles, y compris quand les participants étaient interrogés dessus. La recherche a donc produit des effets concrets et mesurables sur le jeu.

« Ce projet m'a appris à faire de l'UX Research dans un contexte de production réel : observer les joueurs, comprendre les contraintes du studio, prioriser les problèmes et proposer des améliorations suffisamment simples pour être réellement développées. »

08 Limites & réflexivité

4 participants qualifiés, en-deçà du standard du milieu (une dizaine selon Hodent) : les joueurs correspondant à la cible sont difficiles à recruter. Une compensation, d'autres formulations d'annonce ou d'autres canaux (bars à jeux…) auraient pu aider. Les résultats sont des signaux forts, pas des preuves statistiques.
Sessions de test relativement courtes pour un jeu aussi complexe : cela a pu peser sur le sentiment de difficulté et de progression mesuré.
GEQ en version courte In-game (14 items au lieu de 33) : choix contestable, car moins d'items impacte la fiabilité des scores.
Eye-tracking exploratoire : le Tobii Eye Tracker 5 n'est pas conçu pour la recherche académique. Les heatmaps ont finalement apporté peu d'informations exploitables (hormis confirmer que l'icône d'aide était bien perçue), et la comparaison expert/débutant resterait à objectiver par des statistiques inférentielles.
Recommandations volontairement pragmatiques plutôt qu'une refonte complète — un choix assumé, cohérent avec la réalité de production d'un studio indépendant.

09 Compétences démontrées

Recherche en contexte de production Eye-tracking appliqué Audit ergonomique Recrutement de participants Think-aloud Questionnaire GEQ Entretiens semi-directifs Priorisation par criticité Heatmaps & scanpaths Recommandations actionnables